﻿B Rn Rd Rm Cond IPU V WL Rn Rd Offset Cond PUSWL Rn Lista de înregistrări Cond PU WL Rn Rd Offset SH Offset Cond PU WL Rn Rd SH Rm Cond L Offset Cond Rn Cond PUNWL Rn CRd CPNunri Offset Cond Op CRn CRd CPNum Op CRm Cond Op | CRn Rd CPNunri Op CRm Cond Număr întrerupere Multiplica înmulțire lungă Schimbați Încărcare/Stocare octet/cuvânt Încărcare/Pastrare Multiple Bursa de filiale întrerupere software Orez Formate de instrucțiuni ARM pe de biți transfer de date coprocesor operarea datelor coprocesorului transferul registrului coprocesorului Transfer de jumătate de cuvânt: ImmedlBb* Transfer de jumătate de cuvânt: Înregistrare o( ramură Despre tipul de comandă Prelucrarea datelor / PSR Biții și ai fiecărei instrucțiuni ajută la determinarea formatului instrucțiunii și spun hardware-ului unde să găsească restul codului operațional, acesta este De exemplu, dacă biții și sunt zero, iar bitul este, de asemenea, zero (operandul nu este imediat), iar deplasarea operandului de intrare nu este invalidă (steagul instrucțiunii MULTIPLY sau BRANCH EXCHANGE), atunci ambele surse sunt registre Dacă bitul este , atunci o sursă este un registru, iar cealaltă este o constantă în intervalul de la la În ambele cazuri, locația rezultatului este întotdeauna un registru Este oferit spațiu de decodare suficient pentru instrucțiuni, toate acestea ryh sunt în uz în prezent Deoarece toate comenzile sunt pe de biți, nu este posibilă includerea unei constante de de biți într-o comandă Instrucțiunea MOT setează cei mai semnificativi biți dintr-un registru de de rânduri, lăsând loc unei alte instrucțiuni pentru a seta cei biți rămași Aceasta este singura comandă a unui astfel de format neobișnuit Fiecare instrucțiune de de biți are același câmp de biți în cei mai semnificativi biți (de la la ) Acesta este câmpul de condiție cu care orice comandă devine predicat Instrucțiunea de predicat este executată de procesor ca de obicei, dar înainte de a scrie rezultatul într-un registru (sau memorie), mai întâi verifică starea instrucțiunii Pentru instrucțiunile ARM, condiția se bazează pe starea registrului de stare a procesorului (PSR), care conține proprietățile ultimei operații aritmetice (zero, valoare negativă, depășire etc ) Dacă condiția nu este îndeplinită, rezultatul comenzii condiționate este ignorat Formatul instrucțiunii de salt codifică cea mai mare valoare imediată utilizată pentru a calcula adresa țintă a salturilor și a apelurilor de funcție Această comandă este diferită de celelalte: necesită doar de biți de date pentru a determina adresa Această instrucțiune folosește un singur opcode de biți Adresa este adresa țintă împărțită la patru Astfel, în raport cu instrucțiunea curentă, intervalul este de aproximativ ± octeți Sunt sigur că designerii setului de instrucțiuni ARM au vrut să folosească toate combinațiile posibile de biți pentru instrucțiuni, inclusiv combinațiile invalide de operanzi Această abordare complică logica i* i'dnrowapia, dar în același timp vă permite să codificați numărul maxim de operații într-o instrucțiune cu lungime fixă de sau de biți formate de comandă ATmegal II AI niega oferă șase formate de comandă simple (Fig ) Dimensiunea lui nnmnid poate fi de doi sau patru octeți Formatul constă din codul nivirncip și doi operanzi de registru, ambii fiind intrări, •i și unul este rezultatul instrucțiunii De exemplu, comanda ADD pentru registre folosește acest format Format , OOcc ccrd dddd rrrr ALU: Opcode(c) Rd, Rr d dddd ssss Format ALU extins: Opcode(c) Rd cc kkkk dddd KKKK ALU + operand imediat: Opcode(c) Rd, #K QO QQcd dddd cQQQ Încărcare/Salvare: ld/st(c) X/Y/Z+Q, Rd ss KKKK KKKK KKKK Tranziție: br(c) PC + K K KKKK sK KKKK KKKK KKKK KKKK CaH/imo: call/imofc) #K Orez Formate de comandă ATmegal AVR Formatul are, de asemenea, biți, cu opcode suplimentare și un număr de registru de biți Acest format mărește numărul de operații codificate în setul de instrucțiuni prin reducerea numărului de operanzi la Instrucțiunile care utilizează acest format efectuează o operație unară - iau o singură valoare de intrare într-un registru și scriu rezultatul operației în același registru De exemplu, acest tip include instrucțiuni pentru schimbarea semnului și a creșterii Instrucțiunile de format au un operand imediat nesemnat pe biți Pentru a se potrivi cu o valoare imediată atât de mare într-o instrucțiune de biți, instrucțiunea poate avea un singur operand de registru (utilizat pentru intrare și ieșire), iar registrul poate fi doar în intervalul R -R (limitând codificarea operandului la patru biți) Cu exceptia sus), numărul de biți opcode este înjumătățit, astfel încât doar patru instrucțiuni să poată utiliza acest format (SUBCI, SUB , OR și ANDI) Formatul este pentru încărcarea și stocarea instrucțiunilor cu un operand mediocru nesemnat pe biți Registrul de bază este un registru fix nespecificat în codul de instrucțiune deoarece este implicit definit de codul operațional de încărcare/stocare Formatele și sunt pentru instrucțiuni de ramificație și apeluri de subrutine Primul include o valoare imediată nesemnată de biți care este adăugată la valoarea PC pentru a calcula adresa țintă Al doilea extinde valoarea SMS la de biți, în timp ce dimensiunea comenzii AVR este mărită la de biți Adresarea Majoritatea instrucțiunilor operează pe operanzi a căror locație trebuie specificată într-un fel Acest mecanism, despre care vom discuta în această secțiune, se numește adresare Moduri de adresare Până acum, nu am vorbit despre modul în care biții câmpului de adresă sunt interpretați pentru a găsi operandul Este timpul să rezolvăm această problemă Deci, să vorbim despre modurile de adresare Adresare directă Cel mai simplu mod de a specifica un operand este de a stoca operandul însuși în partea de adresă, nu adresa operandului sau orice altă informație care descrie locul în care este localizat operandul Un astfel de operand se numește imediat deoarece este apelat automat din memorie în același timp cu instrucțiunea; prin urmare, devine imediat accesibil Una dintre opțiunile de comandă cu o adresă directă pentru încărcarea constantei în registrul R este prezentată în Fig R al meu Orez Instrucțiune de adresă imediată pentru a încărca constanta în registrul Cu adresare directă, nu este nevoie de acces suplimentar la memorie pentru a apela operandul Cu toate acestea, această metodă de adresare are dezavantaje În primul rând, puteți lucra numai cu constante în acest fel În al doilea rând, numărul de valori este limitat de dimensiunea câmpului Cu toate acestea, această tehnică este utilizată în multe arhitecturi pentru a defini constantele întregi Adresare directă Următorul mod de a defini un operand este pur și simplu să îi oferiți adresa completă Acest mod se numește adresare directă La fel ca adresarea directă, adresarea directă are unele limitări: o instrucțiune poate accesa doar aceeași adresă de memorie Adică, valoarea se poate schimba igdrgg animal de companie Astfel, adresarea directă poate fi folosită doar pentru a accesa variabile globale ale căror adrese sunt cunoscute la momentul legăturii Multe programe conțin variabile globale, așa că acesta este utilizat pe scară largă Cum știe computerul care adrese nu sunt relative și care sunt directe, vom discuta mai târziu Înregistrați adresare Adresarea Rі'ііk i rovaya seamănă în esență cu una directă, doar în acest caz, pe lângă celulele de memorie este indicat un registru Deoarece registrele sunt atât de importante (din cauza accesului rapid și a adreselor scurte), acest mod de adresare este destul de comun pe majoritatea computerelor Mulți compilatori nu le pasă ce variabile vor fi accesate cel mai des (de exemplu, indici de buclă) și pun acele variabile în registre Acest mod se numește adresare de registru Pe arhitecturile redirecționate de pornire (cum ar fi arhitectura ARM OMAP ), practic toate instrucțiunile folosesc acest mod de adresare Nu se aplică doar dacă operandul este mutat din memorie într-un registru (instrucțiune LDR) sau dintr-un registru în memorie (instrucțiune STR) Dar chiar și în aceste comenzi, unul dintre operanzi nu este înregistrat - un cuvânt din memorie este trimis acolo și de acolo este mutat în memorie Adresarea indirectă a registrului La adresarea indirectă a registrului, operandul dorit este luat din memorie sau consultat în memorie, dar adresa nu este fixată rigid în instrucțiune, ca la adresarea directă, ci este localizată în registru Dacă o adresă este utilizată în acest fel, se numește pointer Avantajul adresei indirecte este că, •dar puteți accesa memorie fără a avea adresa completă în instrucțiune În plus, executând în mod repetat această instrucțiune, puteți folosi diferite cuvinte de memorie prin modificarea valorii din registru Pentru a înțelege de ce ar putea fi util să folosiți un cuvânt diferit de fiecare dată când este executată o instrucțiune, imaginați-vă o buclă care trece printr-o matrice unidimensională de numere întregi de de elemente pentru a obține suma elementelor din registrul R În afara acestei bucle, un alt registru, cum ar fi R , poate indica primul element al matricei, iar un alt registru, cum ar fi R , poate indica prima adresă după matrice Matricea conține de numere întregi a câte octeți fiecare Dacă matricea începe de la elementul A, atunci prima adresă după matrice este A + Un program tipic în limbaj de asamblare care efectuează acest calcul pentru o mașină cu două adrese este prezentat în Lista Lista Program în limbaj de asamblare pentru a calcula suma elementelor matricei Ale mele al meu meu IOOP: Adăugați ADĂUGA CMP BLT R ,# R j#A R ,#A+ R ,(R ) R ,# R ,R BUCLĂ ; acumularea sumei în Rl, inițial ; R = adresa matricei A ; R = adresa primului cuvânt după A ; primirea operandului prin registrul R ; crește R cu un cuvânt ( octeți); verificarea finalizării ; dacă R MOV R ,# ; R = prima valoare a indicelui inutil MOV R ,A(R ) ȘI R ,B(R ) SAU R ,R ADAUGĂ R ,# CMP R ,R BLT LOOP ; R = A[i] ; R = A[i] ȘI B[i] ; i = i + ; ar trebui sa continui? ; dacă R tratarea cazului n (de exemplu, verificând ce valoare * este atribuită lui n ), el poate folosi codul mai eficient prezentat în Lista Cândva, standardul de limbaj FORTRAN cerea ca toate buclele să fie executate cel puțin o dată Acest lucru ne-a permis să generăm întotdeauna cod mai eficient (ca în Listarea ) În , acest defect a fost remediat, deoarece până și adepții FORTRAN au început să realizeze că era prea bine să aibă o declarație de buclă cu o semantică atât de ciudată, deși nu a salvat o instrucțiune de salt pe buclă În C și Java, abordarea normală a fost folosită de atunci comenzi I/O Și un alt grup de instrucțiuni nu variază la fel de mult între mașini precum instrucțiunile I/O Calculatoarele personale moderne folosesc trei scheme I/O diferite: + I/O programabil cu așteptare activă; + intrare-ieșire cu control întrerupere; + I/O cu acces direct la memorie Vom analiza pe rând fiecare dintre aceste scheme Cea mai simplă metodă I/O este I/O programabilă Această schemă este adesea folosită în microprocesoarele ieftine, de exemplu, sistemele încorporate sau în sistemele care trebuie să răspundă rapid la schimbări externe (sisteme în timp real) Astfel de profesioniști au de obicei o comandă de intrare și o comandă de ieșire Fiecare dintre comenzile lor selectează unul dintre dispozitivele I/O Între procesorul fix și dispozitivul I/O selectat este transmis unui alt personaj Procesorul trebuie să execute un anumit număr de instrucțiuni de fiecare dată când citește și scrie un caracter Ca exemplu, luați în considerare un terminal cu patru registre de octet, așa cum se arată în Fig Pentru intrare sunt utilizate două registre: registrul de intrare al dispozitivului și registrul de date Două registre sunt utilizate pentru a scoate atât registrul de stare a dispozitivului, cât și registrul de date Fiecare dintre ele are o adresă unică Dacă există I/O mapate în memorie, registrele Int fac parte din spațiul de adrese și pot fi citite și scrise folosind instrucțiunile normale de memorie În caz contrar, citirea și scrierea registrelor necesită comenzi speciale I/O, cum ar fi IN și OUT În ambele cazuri, I/O nguice( se realizează prin transferul de date și informații despre starea dispozitivului între CPU și registrele specificate Bit de prezență a caracterului tampon Gata de a primi bit următorul personaj Simbol primit Buffer de tastatură Buffer de afișare Simbol de afișare Orez Dispozitivul se înregistrează într-un terminal simplu Sunt utilizați doar doi din cei opt biți din Registrul de stare a tastaturii (Bitul din stânga este setat de hardware ori de câte ori apare un caracter în buffer-ul tastaturii Dacă bitul a fost setat anterior de software, se execută o întrerupere În caz contrar, nu are loc nicio întrerupere (întreruperile vor fi discutate mai jos) În I/O programabile, În mod normal, procesorul central citește periodic registrul de stare a tastaturii într-o buclă până când bitul este setat la Când se întâmplă acest lucru, registrul tampon al tastaturii este citit în software pentru a obține un caracter Concluzia se face într-un mod similar Pentru a afișa un caracter pe ecran, registrul de stare de afișare este mai întâi citit de software pentru a vedea dacă bitul de pregătire este setat Dacă nu este setat, bucla este executată din nou și din nou până când bitul gata devine unul Aceasta va indica faptul că dispozitivul este pregătit să accepte caracterul Odată ce terminalul este în starea de pregătire, caracterul este scris în registrul tampon al afișajului în software, care afișează caracterul pe ecran și indică dispozitivului să ștergă bitul pregătit din registrul de stare a afișajului Când un caracter apare pe ecran și terminalul se pregătește să proceseze următorul caracter, controlerul setează din nou bitul gata Ca exemplu de I/O programabil, luați în considerare procedura Java (Listarea ) Această procedură este apelată cu doi parametri: o matrice urale* pviira comenzi caractere care urmează să fie scoase și numărul de caractere disponibile dintr-o privire (până la un kilobit) Corpul procedurii este o buclă care introduce câte un caracter pe rând În primul rând, CPU așteaptă ca dispozitivul să fie gata și abia apoi scoate un caracter, iar această secvență de acțiuni se repetă pentru fiecare caracter Procedurile ip și out sunt rutine tipice de asamblare pentru citirea și scrierea registrelor dispozitivului, care sunt definite de primul parametru Variabila din care este citită sau scrisă este determinată de cel de-al doilea parametru Împărțirea la (prin deplasarea la dreapta cu biți) elimină cei biți inferiori, lăsând bitul gata la bitul zero Lista Exemplu I/O programabil public static void output buffer(int buf[], int count) { // Ieșire bloc de date către dispozitiv stare int, i, gata; pentru (i = ; i > ) & x ; // selectează bit // gata } în timp ce (gata == ); out(display buffer reg, buf[i]); } } Principalul dezavantaj al I/O programabile este că procesorul își petrece cea mai mare parte a timpului într-o buclă așteptând ca dispozitivul să fie gata Acest proces se numește așteptare activă Dacă procesorul nu trebuie să facă altceva (ca într-o mașină de spălat, de exemplu), nu este nimic de care să vă faceți griji (deși chiar și un simplu controler trebuie adesea să controleze mai multe procese paralele) Dar dacă procesorul trebuie să efectueze alte acțiuni, de exemplu, pornirea altor programe, atunci așteptarea activă nu este potrivită aici și trebuie să căutați alte metode I/O Pentru a scăpa de așteptarea activă, este necesar ca procesorul central să pornească un dispozitiv I/O, iar acest dispozitiv, după finalizarea activității, raportează acest lucru procesorului folosind o întrerupere Uită-te la fig Prin setarea bitului de activare a întreruperii în registrul dispozitivului, programul spune că așteaptă un semnal de la hardware despre finalizarea dispozitivului I/O Ne vom uita la întreruperi mai detaliat mai târziu în acest capitol când vom ajunge la problemele legate de transferul de control În multe computere, semnalul de întrerupere este generat prin înmulțirea logică (ȘI) a bitului de activare a întreruperii și a bitului de pregătire a dispozitivului Dacă activați programatic întreruperile în primul rând (înainte de a porni dispozitivul I/O), întreruperea va apărea imediat deoarece bitul de pregătire este deja setat Adică, probabil că mai întâi trebuie să porniți dispozitivul și numai după aceea să activați întreruperile Scrierea unui octet în registrul de stare a dispozitivului nu schimbă bitul gata, care poate fi doar citit Niod-out condus de întreruperi este un mare pas înainte în caracterul i (sâsâit cu intrare-ieșire programabilă, dar încă departe de a fi perfect Faptul este că trebuie generată o întrerupere pentru fiecare npnigmop) caracter și ai nevoie de ceva, apoi scăpați de prea multă întrerupere Soluția constă în revenirea la I/O programabil, deoarece numai altcineva ar trebui să facă această lucrare în locul procesorului central Uită-te la fig Am adăugat un nou cip - un controler de acces direct la memorie (DMA), care are acces direct la magistrală Terminal Obosi Orez Sistem cu controler de acces direct la memorie Cipul DMA are cel puțin registre Toate pot fi încărcate programatic de procesorul central Primul registru conține adresa de memorie care trebuie citită sau scrisă Al doilea registru conține numărul de octeți sau cuvinte care trebuie transferate Al treilea registru conține numărul sau adresa dispozitivului I/O în spațiul de adrese I/O, specificând dispozitivul dorit Al patrulea registru spune dacă datele ar trebui citite sau scrise pe dispozitiv Pentru a scrie un bloc de de octeți din adresa de memorie la un terminal (de exemplu, dispozitivul ), CPU scrie numerele , și în primele trei registre ale DMA și codul de scriere (de exemplu, ) în al patrulea registru, așa cum se arată în fig Controlerul DMA, inițializat în acest fel, face o cerere de acces la magistrală pentru a citi octetul din memorie, exact ca și când acel octet ar fi fost citit de CPU După ce a primit octetul necesar, controlerul DMA trimite o solicitare I/O către dispozitivul pentru a-i scrie un octet După finalizarea acestor două operații, controlerul DMA crește registrul de adrese cu și decrește registrul contorului cu Dacă contorul rămâne pozitiv, următorul octet este citit din memorie și scris pe dispozitivul I/O w /HwBono Argumente pentru comenzi Când contorul ajunge la , controlerul IDI oprește transferul de date și încarcă linia de întrerupere pe cipul procesorului Cu IDN, CPU-ul trebuie doar să inițializeze câteva registre, după care poate face altceva până la finalizarea transferului de date Când transferul este finalizat, CPU primește un semnal de întrerupere de la controlerul IDN Unele controlere IDI conțin , sau mai multe seturi de registre, astfel încât să poată controla mai multe procese de transfer în același timp Rețineți că, dacă un dispozitiv de mare viteză, cum ar fi un disc, va fi rulat de un controler IDN, vor fi necesare o mulțime de vârfuri de ciclon atât pentru accesul la memorie, cât și pentru accesul la dispozitiv În timpul acestor cicluri, procesorul va trebui să aștepte (controlerul IDI are întotdeauna prioritate față de procesor pentru accesul la magistrală, deoarece dispozitivele I/O de obicei nu permit întârzieri) - acest proces se numește captarea ciclului de memorie Cu toate acestea, suprasarcina asociată cu ciclurile de captare nu este nimic în comparație cu economiile obținute prin faptul că nu trebuie să procesați o întrerupere pentru fiecare transfer de octeți (cuvânt) Instrucțiuni procesor COGE I În aceasta și în următoarele două subsecțiuni, ne vom uita la seturile de instrucțiuni ale trei mașini: Cor i , OMAP ARM și ATmegal AVR Fiecare dintre ele acceptă comenzi de bază care sunt obținute de obicei ca urmare a muncii compilatorilor, precum și * comenzi suplimentare care sunt rareori utilizate sau utilizate exclusiv de sistemul de operare Să începem cu Coge i , cel mai complex set de instrucțiuni În comparație cu el, toți ceilalți arată simpli Instrucțiunile COGE i sunt un amestec bizar de instrucțiuni pe de biți, precum și instrucțiuni care au apărut în procesorul prezintă cele mai comune comenzi întregi, folosind următoarea notație: + SRC - sursa de date; + DST - receptor de date; + # este numărul de biți cu care are loc deplasarea; + LV este numărul de variabile locale Tabelul Cele mai comune comenzi întregi ale procesorului Coge i Descrierea comenzii Comenzi de mișcare MOV DST, SRC Mută de la SRC la DST PUSH SRC Împingeți SRC pe stivă POP DST Scoaterea unui cuvânt din stivă și plasarea lui în DST XCHG DS , DS Schimbați scaunele DS și DS LE A DST SRC Încărcați adresa SRC validă în DST ( MOV DST, SRC Mișcare condiționată Tipuri de comenzi ^Yanda Descriere comenzi schfmetice ■Dl) DST, SRC Adăugarea SRC și DST ■UB DST, SRC Scădeți SRC din DST ^ Ul SRC Înmulțiți EAX cu SRC (fără semn) Kui SRC Înmulțiți EAX cu SRC (supus semnării) Biv SRC Împărțiți EDX:EAX la SRC (fără semn) YV SRC Împărțiți EDX:EAX la SRC (sensibil la semn) gDC DST, SRC Adăugați SRC la DST și adăugați un bit de transport GSM DST, SRC DST scădere și transfer din SRC foc DST Increment (adăugați ) DST [DEC DST Scădere (scădeți ) DST ( Rec dst Negate DST (scădeți DST de la ) Comenzi binare zecimale l)AA Corecție zecimală DAS Corecție zecimală pentru scădere TOATE corecția ASCII pentru adăugare Corecție AAS ASCII pentru scădere ALM corectare cod ASCII pentru multiplicare Corecție AAD ASCII pentru divizare Comenzi logice ANI) DST, SRC Operare logică și pe SRC și DST OR DST, SRC Operație logică OR pe SRC și DST XOR DST, SRC logic EXCLUSIV OR operare pe SRC și DST NU complementul DST înlocuirea DST Comenzi de schimbare obișnuite și ciclice SAL/SAR DST, # Shift DST stânga/dreapta cu # biți SIIL/SHR DST, # Deplasare logică DST la stânga/dreapta cu # biți ROL/ROR DST, # Rotiți DST la stânga/dreapta cu # biți RCL/RCR DST, # Rotiți DST cu # de biți de transport Comenzi de testare și comparare TST SRC , SRC operanzi booleeni AND, setarea steaguri CMP SRC , SRC Setați steaguri pe baza diferenței dintre SRC și SRC Comenzile de transfer de control JMPADDR Salt la adresa |хх ADDR Salturi condiționate bazate pe steaguri continuare & Capitolul Stratul de arhitectură al setului de instrucțiuni Tabelul (continuare) Descrierea comenzii CALL ADDR Procedura de apel la adresa RET Procedura de ieșire RET Ieșire întrerupere RC LOOPxx Continuarea buclei până când este îndeplinită o anumită condiție ' SAU NT ADDR întrerupere software INTO Întreruperea dacă bitul de depășire este setat, Y Comenzi de procesare a șirurilor D] LODS șirul de încărcare J STOS Salvare linie MOVS Mută o linie CMPS Compara două șiruri l SCAS Scanare linie Comenzi de cod de condiție STC Setați bitul de transport în registrul EFLAGS CLC Șterge bitul de transport din registrul EFLAGS CMC Complementarea bitului de transport din registrul EFLAGS STD Setați bitul de direcție în registrul EFLAGS CLD Șterge bit de direcție în registrul EFLAGS STI Setați bitul de întrerupere în registrul EFLAGS CLI Ștergeți bitul de întrerupere din registrul EFLAGS PUSHFD Împingeți valoarea din registrul EFLAGS în stivă POPFD Introduceți o valoare din stivă în registrul EFLAGS LAHF Încărcare AH din registrul EFLAGS SAHF Conservarea AH în registrul EFLAGS Alte comenzi SWAP DST Schimbați ordinea octeților în DST CWQ Extinderea EAX la EDX:EAX pentru divizie Extensie CWDE a unui număr de biți din AX la EAX ENTER SIZE, LV Creați un cadru stivă cu dimensiunea octeților LEAVE Şterge cadrul stivei creat de comanda ENTER NOP Operare gol Oprire HLT IN AL, PORT Transfer octet de la port la ALU OUT PORT, AL Transfer octet de la ALU la port Așteptați o întrerupere Tipuri de comandă Lista este departe de a fi completă, deoarece nu include comenzi flotante, comenzi de control, precum și unele comenzi mici care apar rar (de exemplu, utilizarea unui octet de biți pentru a selecta o căutare într-un tabel) Cu toate acestea, tabelul oferă o idee despre ce acțiuni poate efectua Coge i și nicio instrucțiune Core i nu se referă la unul sau doi operanzi care se află în registre sau memorie De exemplu, instrucțiunea binară ADD adaugă un rand, iar instrucțiunea unară INC crește valoarea unui operand cu • Unele instrucțiuni au mai multe variante similare De exemplu, comenzile pot deplasa un cuvânt fie la dreapta, fie la stânga, ținând cont de bitul de semn și de contabilitate Majoritatea instrucțiunilor au mai multe codificări diferite datorită naturii operanzilor Când comenzile sunt executate, sursele de date (SRC) nu se schimbă, dar de obicei IIKI de recepție (DST) se schimbă Există anumite reguli care determină ce poate fi o sursă și ce poate fi o chiuvetă; sunt oarecum haotici ^Se schimbă de la echipă la echipă, dar despre ei nu vom vorbi aici Multe IUMapd-uri au trei opțiuni: pentru operanzi de biți, biți și, respectiv, de biți Ele diferă în opcode și/sau un bit per instrucțiune fila L arată în principal instrucțiuni pe de biți Pentru comoditate, am împărțit comenzile în mai multe grupuri Primul grup conține instrucțiuni care mută date între componentele aparatului: registre, memorie și stivă Al doilea grup conține comenzi aritmetice pentru operații semnate și nesemnate La înmulțire și împărțire, produsul sau dividendul pe de biți este stocat în două registre: EAX (biți mai mici) și ІіІ)X (biți mai mari) Al treilea grup include aritmetica binar-zecimală Aici, fiecare Nm este tratat ca doi nibbles de biți Fiecare ciugulă conține o zecimală (de la la ) Sunt utilizate combinații de biți de la la Astfel, un număr întreg de biți poate conține un număr zecimal între și Deși această formă de stocare este ineficientă, elimină nevoia de a converti intrarea zecimală în binar și apoi înapoi la zecimal pentru ieșire Aceste comenzi sunt folosite pentru a efectua operații aritmetice pe numere BCD Sunt utilizate pe scară largă în programele COBOL Instrucțiunile logice și de schimbare manipulează biții dintr-un cuvânt sau octet în mai multe combinații posibile Următoarele două grupuri sunt legate de verificarea, compararea și implementarea tranziției în funcție de rezultat Rezultatele testului și comparației sunt stocate în diferiți biți în registrul EFLAGS Simbolurile Jxr denotă un grup de instrucțiuni care efectuează o ramură condiționată în funcție de rezultatele comparației anterioare (adică în funcție de biții din registrul EFLAGS) Coge i acceptă mai multe comenzi pentru încărcarea, salvarea, mutarea, compararea și scanarea șirurilor de caractere sau cuvinte Aceste comenzi pot fi precedate de un octet de prefix special REP (repetiție - repetiție), care face ca comanda să fie repetată până când este îndeplinită o anumită condiție (de exemplu, până când registrul ECX, a cărui valoare scade cu după fiecare repetare, devine egal) la ) Acțiuni atât de diferite ilva o stratul arhitecturii setului de instrucțiuni (deplasare, comparare etc ) poate fi efectuată pe blocuri arbitrare de date ||M Următorul grup de comenzi controlează codurile de stare Ultima grupă include echipe care nu sunt incluse în niciuna dintre grupele anterioare Acestea sunt comenzi pentru transcodare, managementul stivei de cadre, I/O și oprirea procesorului L Comenzile Core I au un număr de prefixe Unul dintre ele (REP) am REDUCUT deja zerouri Un prefix este un octet special care poate fi plasat practic înaintea oricărei comenzi (similar cu WIDE în Iѵm) După cum sa menționat deja, prefixul MH face ca instrucțiunea care o urmează să fie repetată până când registrul BON este setat la Prefixele REPZ și REPNZ fac ca instrucțiunea să fie executată din nou și din nou până când codul de execuție a condiției Z ia valoarea sau QI în mod responsabil Prefixul LOCK rezervă magistrala pentru întreaga instrucțiune, astfel încât MOLITZ să poată gestiona sincronizarea interprocesor Alte prefixe "FOLOSIT" sunt folosite pentru a face comanda să funcționeze în format de sau de biți ÎNAINTE, aceasta nu numai că schimbă lungimea operanzilor, dar redefinește complet^! moduri de adresare În cele din urmă, Cori implementează o schemă de segmentare complexă care implică cod, date, stivă și segmente suplimentare (vehicul ) Prefixele vă permit să reglați utilizarea anumitor segmente atunci când accesați memorie Din fericire, această problemă este prea urgentă pentru noi, SF comenzi OMAR Aproape toate instrucțiunile ARM întregi în modul utilizator care pot fi generate de compilator sunt enumerate în Tabelul , se utilizează următoarea notație: + S - registru sursă; + S IMM - sursa (registru sau direct date); + S - registru sursă (când se utilizează trei registre); + DST - registru receptor; + DST - registru receptor ( sau ); + DST - registru receptor ( sau ); + ADDR - adresa de memorie; + IMM - valoare imediată; + REGLIST - lista registrelor; + PSR - registru stare procesor; + ss - condiție de tranziție Tabelul Comenzi de bază ale procesorului OMAP Descrierea comenzii Descărcați Comenzi LDRSB DST, ADDR Încărcare octet semnat ( biți) LDRB DST, ADDR Încarcă octet nesemnat ( biți) LDRSH DST, ADDR Încarcă jumătate de cuvânt semnat ( biți) Iѵmanda Descriere DHIÎ DST ADDR Încarcă jumătate de cuvânt nesemnat ( biți) PC DST, cuvânt de încărcare ADDR ( de biți) DM St, REGLIST Se încarcă câteva cuvinte Salvare începe VI HB DST, ADDR Stocare octet ( biți) URII DST, ADDR Stocare jumătate de cuvânt ( biți) STR DST, ADDR Stocare cuvânt ( de biți) NTM SRC, REGLIST Salvați mai multe cuvinte Comenzi aritmetice ADAUGĂ DST, SI, S IMM ADD DST, SI, S IMM Adăugați, transportați NUB DST, SI, S IMM Scădere SUB DST, SI, S TMM Purtare scădere USB DST, SI, S IMM Scădere inversă USC DST, SI, S IMM Scădere inversă cu transport MUL DST, SI, S Multiplicare Ml A DST, SI, S , S Înmulțirea cu acumulare UMULLD , D , SI, S Înmulțire lungă fără semn SMULL Dl, D , SI, S Înmulțire lungă semnată UMLAL Dl, D , SI, S Înmulțire lungă fără semn SMULL Dl, D , SI, S Înmulțire lungă semnată cu acumulare (MP SI, S IMM Comparație cu configurarea PSR Comenzi de schimbare obișnuite și ciclice I SL DST, SI, S IMM Deplasare logică la stânga LSR DST, SI, S IMM Deplasare logică la stânga ASR DST, SI, S IMM Deplasare logică la dreapta l")R DSR, SI, S IMM Deplasare logica la dreapta Comenzi logice TST DST, SI, S IMM Verificare biți TEQ DST, SI, S IMM Verificare egalitate AND DST, SI, S IMM Logic AND EOR DST, SI, S IMM XOR logic ORR DST, SI, S IMM OR logic BIC DST, SI, S IMM Resetare biți continuare & ilyaia o nivel de arhitectură a buclei de instrucțiuni Tabelul (continuare) Comanda Descriere HJ Comenzile de transfer de control Greutatea IMM Salt la adresa PC+IMM BLcc IMM Tranziție cu comunicare la adresa RS+IMM BLcc SI Tranziție cu link către adresa stocată în registru Alte comenzi MOV DST, SI MOVT DST, IMM Mută IMM în MSB MVN DST, SI inversare registru MRS DST, PSR Citiți PSR MSR PSR, SI Record PSR SWP DST SI, ADDR Registru de memorie/permutare cuvânt SWPb DST, SI, ADDR Registru de memorie/permutare octet SWI IMM întrerupere software Tabelul nu include comenzi în virgulă mobilă, comenzi de control (de exemplu, comenzi de memorie cache, comenzi de repornire a sistemului), comenzi care implică spații de adrese non-utilizator, comenzi învechite Setul de instrucțiuni este surprinzător de mic Acest lucru este de înțeles, deoarece OMAP este un procesor RISC Structura comenzilor LDR și STR este foarte simplă Aceste comenzi au opțiuni pentru , și octeți Dacă un număr mai mic de de biți este încărcat într-un registru ( de biți), numărul poate fi fie extins prin semn, fie cu zero Există comenzi pentru ambele opțiuni Următorul grup de instrucțiuni este destinat operațiilor aritmetice cu posibila setare a biților în registrul de stare a procesorului Pe mașinile CISC, majoritatea instrucțiunilor stabilesc coduri de stare, dar pe o mașină RISC acest lucru este nedorit deoarece limitează capacitatea compilatorului de a sorta instrucțiunile pentru a minimiza întârzierile Dacă ordinea inițială a comenzilor este A B C, unde A stabilește codurile de condiție și B le verifică, atunci compilatorul nu va putea insera o comandă C între A și B dacă C stabilește și coduri de condiție Din acest motiv, multe comenzi au două opțiuni, iar compilatorul o folosește de obicei pe cea care nu setează coduri de condiție decât dacă intenționează să le verifice mai târziu Pentru a specifica setarea codurilor de stare, programatorul adaugă un sufix "S" la codul operațional, cum ar fi ADDS Un bit special din instrucțiune îi spune procesorului să seteze coduri de stare Comenzile de înmulțire, împărțire semnată și împărțire fără semnă sunt, de asemenea, acceptate Grupul de instrucțiuni de schimbare include o instrucțiune de schimbare la stânga și două instrucțiuni de schimbare la dreapta Fiecare dintre ele funcționează cu registre de de biți Instrucțiunile de schimbare sunt utilizate în principal pentru manipularea biților Round robin este folosit în principal în operațiuni și procesare criptografice i rpfіі la i Majoritatea maniilor CISC au o varietate destul de mare de opțiuni de schimbare regulată și ciclică, dar aproape toate sunt destul de utile Niciunul dintre dezvoltatorii compilatorului nu îi va plânge Instrucțiunile logice sunt similare cu cele aritmetice Acest grup include valorile nule ȘI (ȘI), EOR (SAU EXCLUSIV), ORR (SAU), tst, teq și BIC Precizia ultimelor trei comenzi este îndoielnică, dar pot fi executate în ciclul ІІ/Ііні și nu necesită aproape nicio coacere hardware suplimentară PG și, prin urmare, sunt adesea incluse în setul de instrucțiuni Chiar și dezvoltatorii mașinilor HIS sunt uneori tentați Următorul grup conține comenzi de transfer de control Simbolurile Mn desemnează un grup de comenzi care fac tranziții în funcție de diferite condiții Instrucțiunile BLcc fac același lucru, dar plasează și adresa următoarei instrucțiuni în registrul de legătură (R ) Sunt convenabile pentru implementarea apelurilor de procedură Spre deosebire de alte arhitecturi RISC, nu există nicio comandă specială pentru a sări la o adresă dintr-un registru O astfel de comandă este ușor de sintetizat de comanda Li mo, ѵ care folosește contorul de comenzi (K ) ca receptor Există două moduri de a apela proceduri Prima comandă BLcc utilizează formatul de salt din Fig cu un offset de de biți față de computer ho vă permite să săriți la orice comandă la MB distanță de cea actuală în orice direcție A doua instrucțiune BLcc sare la adresa din registrul dat Poate fi folosit pentru a implementa apeluri de procedură legate dinamic (de exemplu, funcții virtuale C++) apeluri N'Pi al căror offset este mai mare de MB Ultimul grup conține comenzi care nu se încadrează în niciuna dintre celelalte i grupuri Instrucțiunea MOVT a fost introdusă deoarece nu a fost posibilă plasarea unui operand imediat pe de biți într-un registru Instrucțiunea MOVT setează biții de la la și apoi următoarea instrucțiune transmite biții rămași folosind un format care nu are legătură Instrucțiunile MRS și MSR vă permit să citiți și să scrieți (Processor State Record (PSR) Instrucțiunile SWP realizează permutarea atomică a conținutului unui registru și a unui cuvânt de memorie Ele implementează primitivele de sincronizare multiprocesor, care vor fi discutate în Capitolul În cele din urmă, instrucțiunea SWI inițiază o întrerupere software - Cu alte cuvinte, apelează o funcție de sistem Comenzi ATmegal Setul de instrucțiuni ATmegal este foarte simplu Toate sunt prezentate în tabel Fiecare linie a tabelului conține un cod mnemonic, o scurtă descriere și un fragment de pseudo-cod care explică acțiunea comenzii Abundența instrucțiunilor M()V pentru mutarea datelor între registre este destul de de înțeles Sunt furnizate și comenzi pentru împingerea elementelor pe stivă și scoaterea lor din stivă Indicatorul de stivă este setat într-un registru special de biți (SP) Memoria poate fi accesată prin adresă directă, înregistrați adresare indirectă sau înregistrați adresare indirectă cu un offset Pentru a permite adresarea până la KB, instrucțiunea de încărcare imediată a adresei este de de biți Moduri de adresare indirectă Capitolul Stratul de arhitectură al setului de instrucțiuni utilizați perechi de registre X, Y și Z, combinând două re de biți într-unul de biți Tabelul Set de instrucțiuni pentru procesorul ATmegal Comanda Descriere Semantică jd ADAUGĂ DST, SRC Adăugați DST * - DST + SRC ADC DST SRC Carry add DST * - DST + SRC + C ADIW DST,IMM Adăugarea directă a cuvintelor DST+ :DST "- DST+ :DST IMM J SUB DST,SRC Scădere DST * - DST - SRC SUBI DST,IMM Scădere directă DST * - dst - imm SBC DST,SRC Carry Scădere DST la SP -> k= - Valoare FP veche = - Valoare FP veche = Adresa de retur Adresa de retur j= j= I= i= FP n= FP n= SP -> k L k= k= k= - Adresă de returnare Valoare FP veche = - Valoare FP veche = Valoare FP veche = Valoare veche FP = Adresa de retur Adresa de retur Adresa de retur j= j= j= j= І= І= i= i= FP - n= n= n= n= HP > k k= k= k= k= Valoare FP veche Valoare FP veche Valoare FP veche Valoare FP veche Valoare FP veche Adresa de retur Adresa de retur Adresa de retur Adresa de retur Adresa de retur j= j= j= j= j= І= І= І= i= i= hP-> n= n= n= n= n= o implorare d Orez Starea stivei în timpul execuției programului din lista indicator de legătură) Diferite mașini manipulează indicatorul de cadru puțin diferit, uneori plasându-l chiar în partea de jos a cadrului stivei, alteori în partea de sus și alteori în mijloc, ca în Fig În acest sens, merită să comparăm Fig cu fig pentru două moduri diferite de a trata un pointer adormit Alte moduri sunt posibile Dar, în orice caz, trebuie să fie posibilă ieșirea din procedură și restabilirea stării anterioare a stivei Codul care reține vechiul indicator de cadru, setează noul indicator de cadru și incrementează indicatorul de stivă pentru a rezerva spațiu pentru variabilele locale se numește prolog de procedură La ieșirea* din procedură, stiva trebuie curățată, iar această problemă este rezolvată în epilogul procedurii prostului Una dintre cele mai importante caracteristici ale unui computer este cât de repede poate rula prologul și epilogul Daca sunt foarte lungi si ruleaza incet, nu este profitabil sa apelezi la proceduri Comenzile ENTER și LE AVG din Cori au fost concepute special pentru a face ca prologurile și epilogurile procedurilor să funcționeze eficient Desigur, ele acceptă un anumit model de gestionare a indicatorului de cadru, iar dacă compilatorul acceptă un alt model, aceste comenzi nu pot fi utilizate Acum înapoi la Turnul din Hanoi Fiecare apel de procedură adaugă un nou cadru la stivă, iar fiecare ieșire din procedură elimină un cadru din stivă turnuri ( , lj ) Pe fig Figura a arată starea stivei imediat după apelul la procedură În primul rând, procedura verifică dacă n este egal cu unu, iar după ce se stabilește că n = , populează k și efectuează apelul turnuri ( , , ) Starea stivei după finalizarea acestui apel este prezentată în Fig , b În plus, procedura este executată din nou (procedura apelată începe întotdeauna de la început) De data aceasta condiția n = eșuează din nou, așa că procedura completează din nou k și apelează turnuri ( , , ) Starea stivei după acest apel este prezentată în Fig , c Contorul programului indică începutul procedurii De data aceasta, condiția este adevărată și pe ecran este afișat un șir Apoi se iese din procedura Pentru a face acest lucru, un cadru este șters și valorile FP și SP sunt redefinite (Fig , d) În continuare, executarea procedurii continuă de la adresa de retur: turnuri ( , , ) Acest apel împinge un nou cadru pe stivă (Figura e) Se imprimă o altă linie După ieșirea din procedură, cadrul este scos din stivă Apelurile de procedură continuă până la finalizarea execuției primei proceduri și până la cadrul prezentat în Fig , a, nu va fi scos din stivă Pentru a înțelege mai bine cum funcționează recursiunea, este necesar, folosind doar pix și hârtie, să reproducem complet execuția procedurii turnuri ( ^ , ) Coroutine Într-o secvență normală de apel, există o diferență evidentă între procedura de apelare și procedura apelată Luați în considerare procedura A, care numește procedura B (Figura ) Procedura de apelare Procedura numită Procedura A este apelată din programul principal Procedura A readuce controlul programului principal A Orez Executarea unei proceduri apelate începe întotdeauna de la începutul acesteia Procedura B rulează o perioadă, apoi revine la A La prima vedere, aceste situații pot părea a fi simetrice, deoarece atât A cât și B nu sunt programe principale - sunt proceduri (cu toate acestea, procedura A poate fi apelată de programul principal, dar în acest caz este irelevant) Mai mult, controlul va fi mai întâi transferat de la A la B (la apel), iar apoi de la B la A (la întoarcere) Diferența este că atunci când controlul trece de la A la B, procedura B începe de la început; iar când controlul este transferat de la B înapoi la A, execuția procedurii A continuă nu de la început, ci de la comandă, І № în urma apelului la procedura B Dacă A rulează un timp și apoi apelează din nou procedura B, execuția lui B începe din nou de la început și nu din punctul după care controlul a fost returnat la procedura A Dacă, în timpul execuției, procedura A apelează procedura B în mod repetat, procedura B începe de la început de fiecare dată, dar procedura A nu începe niciodată de la început Această diferență se reflectă în modul în care este transferat controlul între A și B Când procedura A îl apelează pe B, folosește o instrucțiune de apel de procedură care plasează adresa de retur (adică adresa instrucțiunii care urmează procedura din pj) * program) în locul în care atunci va fi ușor să îl extragi, de exemplu, în partea de sus a stivei Apoi introduce adresa procedurii B în contorul de programe pentru a finaliza apelul Pentru a ieși din procedura B, nu folosim o instrucțiune de apel de procedură, ci o instrucțiune de ieșire a procedurii, care pur și simplu scoate adresa de retur din stivă și o pune în contorul de programe Cu toate acestea, uneori doriți ca ambele proceduri (A și B) să se apeleze reciproc ca procedură, așa cum se arată în Figura La întoarcerea de la B la A, rutina prostească B sare la operatorul care a fost precedat de apel Procedura A este apelată din programul principal Procedura A readuce controlul programului principal A Orez După terminarea corutinei, execuția începe de unde a rămas ultima dată, nu de la început procedura B Când procedura A transferă controlul către procedura B, aceasta nu revine chiar la începutul lui B (cu excepția primei oară), ci la locul înainte de care a avut loc apelul anterior către A Două proceduri care funcționează în acest fel se numesc corutine Coroutinele sunt utilizate în mod obișnuit pentru procesarea paralelă a datelor pe un singur procesor Fiecare corutine functioneaza parca simultan cu alte corutine, ca si cum ar avea propriul procesor Această abordare simplifică programarea unor aplicații De asemenea, este util pentru testarea software-ului destinat execuției multiprocesor Comenzile obișnuite CALL și RETURN nu sunt potrivite pentru apelarea corutinelor, deoarece deși adresa de salt este luată din stivă, ca și în cazul controlului de returnare, dar implicația controlului de returnare, atunci când este apelată o corutine, adresa de retur este plasată într-un anumit loc pentru a reveni la el mai târziu Ar fi bine dacă ar exista un jomand care să folosească un contor de program în loc de partea de sus a stivei Această instrucțiune trebuie mai întâi să scoată vechea adresă de retur de pe stivă și să o împingă într-un registru intern, apoi să împingă contorul de program pe stivă și, în sfârșit, să copieze conținutul registrului intern și al contorului programului Deoarece un cuvânt este scos din stivă și altul este împins pe stivă, starea indicatorului de stivă nu se schimbă O astfel de comandă este foarte rară, așa că în majoritatea cazurilor trebuie modelată din mai multe comenzi Prinderea de excepții Captarea excepțiilor este un tip special de apel de procedură care are loc în anumite condiții, de obicei foarte grave, dar rare () Un exemplu de astfel de condiție este un preaplin Pe majoritatea procesoarelor, dacă rezultatul unei operații aritmetice depășește cel mai mare număr permis, apare o excepție și este prinsă Aceasta înseamnă că fluxul de control merge într-o locație fixă de memorie și nu continuă secvenţial mai departe Această celulă fixă conține o comandă pentru a trece la o procedură specială (manager de excepții) care efectuează o anumită acțiune, cum ar fi imprimarea unui mesaj de eroare Dacă rezultatul operației este în intervalul permis, nu apare nicio excepție Important este că excepțiile pot fi aruncate în software și sunt prinse în hardware sau la nivel de firmware Pe lângă identificarea unei excepții, există o altă modalitate de a determina dacă a avut loc o depășire Pentru a face acest lucru, trebuie să aveți un registru de bit care va fi setat ori de câte ori are loc o depășire În acest caz, un programator care ar dori să verifice rezultatul pentru depășire ar trebui să includă o instrucțiune de depășire în program după fiecare instrucțiune aritmetică, ceea ce este foarte incomod În comparație cu verificarea programatică explicită, capturarea excepțiilor economisește timp și memorie Captarea excepțiilor poate fi implementată nu numai în hardware, ci și cu ajutorul firmware-ului prin aceeași verificare explicită În acest caz, când la detectarea unui overflow, adresa handler-ului de excepții este încărcată în contorul programului Verificarea la nivel de firmware durează mai puțin timp decât verificarea la nivel de program, deoarece poate fi efectuată în același timp cu o altă acțiune În plus, o astfel de verificare economisește memorie, deoarece poate fi implementată doar într-un singur loc, de exemplu, în bucla principală a firmware-ului, indiferent de câte instrucțiuni aritmetice există în programul principal Cele mai frecvente condiții care pot provoca excepții includ: depășiri și dispariții în virgulă mobilă, depășiri la operațiuni cu numere întregi, încălcări de securitate, cod operațional nedefinit, depășire a stivei, pornirea unui dispozitiv I/O inexistent, încercarea de a prelua un cuvânt cu o adresă ciudată, împărțiți la întreruperi Întreruperile sunt modificări ale fluxului de control care nu sunt cauzate de programul în sine, ci de altceva Întreruperile sunt de obicei asociate cu procesul I/O De exemplu, un program poate instrui discul să înceapă transferul de informații și să declanșeze o întrerupere de îndată ce transferul este complet Ca și în cazul excepțiilor, întreruperile opresc programul și transferă controlul către o Rutină Serviciu de întrerupere* (ISR) sau către un handler de întreruperi care efectuează anumite acțiuni După finalizarea acestor acțiuni, operatorul de întrerupere va transfera controlul programului întrerupt Trebuie să repornească procesul întrerupt în aceeași stare în care era atunci când a fost întrerupt Aceasta înseamnă că starea anterioară a tuturor registrelor interne (adică starea care era înainte de întrerupere) trebuie restabilită Diferența dintre excepții și întreruperi este că excepțiile sunt sincrone cu programul, în timp ce întreruperile sunt asincrone Dacă reporniți programul de mai multe ori cu aceleași date de intrare, excepții vor apărea în aceleași locuri în program de fiecare dată, dar întreruperile nu vor apărea (în exemplul nostru de disc, o întrerupere va apărea numai când discul a finalizat transferul de date, și nu atunci când este cerut de program) Motivul pentru reproductibilitatea excepțiilor și nereproductibilitatea întreruperilor este că primele sunt apelate direct de program, iar cele din urmă indirect Pentru a înțelege cum funcționează întreruperile, luați în considerare un exemplu comun: un computer trebuie să imprime un șir de caractere pe terminalul său Programul memorează mai întâi toate caracterele care urmează să fie afișate pe ecran, inițializează variabila globală ptr pentru a indica începutul bufferului și setează a doua variabilă globală la numărul de caractere care urmează să fie afișate pe ecran Programul verifică apoi dacă terminalul este gata și, dacă da, tipărește primul caracter pe ecran (de exemplu, folosind registrele prezentate în Figura ) Prin pornirea procesului I/O, CPU este eliberat și poate rula un alt program sau poate face altceva După un timp, simbolul este afișat pe ecran După aceea, poate fi declanșată o întrerupere Pașii principali sunt enumerați mai jos (în formă simplificată) Acțiuni hardware: Controlerul dispozitivului încarcă linia de întrerupere pe magistrala de sistem Când CPU este gata să gestioneze o întrerupere, setează caracterul de confirmare a întreruperii pe magistrală Când controlerul dispozitivului detectează că semnalul de întrerupere a fost afirmat, plasează un mic întreg pe liniile de date pentru a se "introduce" (adică pentru a indica ce dispozitiv este sursa întreruperii) Acest număr se numește vector de întrerupere CPU citește vectorul de întrerupere din magistrală și îl stochează temporar CPU împinge contorul de program și cuvântul de stare a programului în stivă (> CPU localizează noul contor de program folosind vectorul de întrerupere ca index într-un tabel din partea de jos a memoriei Dacă, de exemplu, contorul de program este de octeți, atunci vectorul de întrerupere n corespunde adresei u Noul contorul programului indică începutul programului Gestionarea întreruperilor pentru dispozitivul care este sursa întreruperii Adesea, cuvântul de stare a programului este încărcat sau modificat (de exemplu, pentru a bloca întreruperi ulterioare) Alte acțiuni sunt efectuate programatic: Managerul de întrerupere salvează toate registrele de care are nevoie pentru a putea fi restaurate ulterior Ele pot fi stocate pe stivă sau într-o masă de sistem Fiecare vector de întrerupere este partajat de toate dispozitivele de acest tip, deci nu se știe încă care terminal a cauzat întreruperea Numărul terminalului poate fi găsit citind valoarea unui registru După aceea, puteți citi orice alte informații despre întrerupere, cum ar fi codurile de stare Dacă apare o eroare I/O, aceasta trebuie tratată în acest moment Variabilele globale ptr și count sunt actualizate Primul este incrementat cu pentru a indica următorul octet, iar al doilea este decrementat cu pentru a indica faptul că a mai rămas cu octet mai puțin de ieșit Dacă numărul este încă mai mare decât , atunci nu toate caracterele au fost încă afișate Caracterul indicat în prezent de ptr este copiat în registrul tampon de ieșire Autorul nu are dreptate: aici vorbim despre numărul de întrerupere Fiecare tip de întrerupere are propriul său număr Termenul "vector de întrerupere" este folosit atunci când adresa operatorului de întrerupere este găsită prin numărul de întrerupere, iar această adresă este reprezentată de o singură valoare, dar de mai multe, adică este necesar să se inițialeze mai mult de un registru Cu alte cuvinte , adresa este reprezentată nu printr-o valoare scalară, ci printr-un vector multidimensional Notă științific ed Dacă este necesar, va fi emis un cod special care spune dispozitivului sau controlerului de întrerupere că întreruperea a fost procesată Toate registrele salvate sunt restaurate Comanda de ieșire întrerupere este executată, readucerea CPU la starea în care se afla înainte de întrerupere După aceea, computerul continuă să funcționeze din locul în care a fost suspendat Există un concept important de transparență asociat întreruperilor Când nu se întâmplă întrerupere, pot fi efectuate o varietate de acțiuni și pot fi lansate diverse tipuri de programe, dar când totul se termină, computerul ar trebui să revină exact la aceeași stare în care se afla înainte de întrerupere Un handler de întrerupere care are această proprietate se numește transparent Dacă computerul are un singur dispozitiv I/O, atunci întreruperile funcționează exact așa cum tocmai am descris Cu toate acestea, un computer mare poate conține multe dispozitive I/O, cu mai multe dispozitive care rulează în același timp, posibil pentru utilizatori diferiți Există o oarecare șansă ca, în timp ce gestionarea întreruperilor rulează, un alt dispozitiv I/O va încerca, de asemenea, să declanșeze propria întrerupere Există două abordări aici Primul este ca toți manipulatorii de întreruperi să prevină mai întâi (chiar înainte de salvarea registrelor) întreruperile ulterioare - în acest caz, întreruperile vor avea loc strict pe rând Cu toate acestea, acest lucru poate duce la probleme cu dispozitivele care nu pot fi inactive pentru o perioadă lungă de timp De exemplu, pe o linie de comunicație care acceptă o rată de transmisie de bps, simbolurile ajung la fiecare de microsecunde Dacă primul caracter este lăsat neprocesat când sosește al doilea, datele se vor pierde Dacă computerul are dispozitive de intrare-ieșire similare, atunci cel mai bine este să atribuiți o anumită prioritate fiecărui dispozitiv, mare - pentru dispozitivele mai critice, scăzută - pentru dispozitivele mai puțin critice CPU trebuie să aibă priorități, care sunt determinate de unul dintre câmpurile din cuvântul de stare a programului Dacă un dispozitiv cu prioritate n provoacă o întrerupere, operatorul de întrerupere trebuie să ruleze și cu prioritate n Dacă manipulatorul de întreruperi se execută la prioritatea n, orice încercare de a gestiona o întrerupere de la un alt dispozitiv cu o prioritate mai mică va fi ignorată până când manevrătorul de întreruperi se termină și CPU începe să execute programul cu prioritate inferioară În același timp, întreruperile de la dispozitivele cu o prioritate mai mare trebuie procesate fără întârziere Deoarece gestionatorii de întreruperi înșiși pot întrerupe, singura modalitate posibilă de a ajusta situația este de a face toate întreruperile transparente Luați în considerare un exemplu simplu cu mai multe pauze Lăsați computerul să aibă trei dispozitive I/O: o imprimantă, un hard disk și o linie RS cu prioritățile , și, respectiv, Inițial (t = , Che t - timp) programul utilizatorului funcționează La t = , imprimanta neașteptată va declanșa o întrerupere Managerul de întreruperi (ISR) este rulat de la imprimantă, așa cum se arată în fig La t = întreruperi sunt necesare de către linia RS Deoarece linia RS are o prioritate mai mare ( ) decât imprimanta ( ), este inițiată procesarea acestei întreruperi Întreruperea discului, prioritate , în așteptare Terminați linia RS ISR, primiți întrerupere de disc Întreruperea RSR , prioritate Prioritatea întreruperea imprimantei Aproximativ Închiderea unui disc ISR Oprirea unei imprimante ISR Program : ISR : Utilizator : Imprimantă : Linia RS ISR ISR disc : " ѵ Timp și ISR; Program ! utilizator !imprimantă Utilizator Imprimanta utilizator Imprimanta utilizator Utilizator Grămadă II II II II Orez Un exemplu de întreruperi multiple Secvența de acțiuni Starea mașinii în care rulează imprimanta ISR este stocată în stivă, iar gestionarea întreruperilor de linie RS începe să se execute Puțin mai târziu, la t = , discul își încheie munca și semnalează acest lucru cu o întrerupere Cu toate acestea, prioritatea sa ( ) este mai mică decât prioritatea gestionarului de întrerupere ( ) care rulează în prezent, astfel încât CPU nu confirmă primirea semnalului de întrerupere, iar discul este forțat să aștepte La t = , linia RS ISR se termină și mașina revine la starea în care se afla înainte de întreruperea liniei RS , adică la starea corespunzătoare funcționării ISR imprimantei cu prioritate De îndată ce CPU comută la prioritatea , mai înainte de executarea primei instrucțiuni, discul cu prioritate se întrerupe și SR-ul discului este pornit După ce se încheie, rutina de întrerupere a imprimantei continuă din nou În cele din urmă, la t = , toate rutinele de întrerupere se termină și execuția programului utilizatorului se reia de unde a rămas De la , toate procesoarele Intel au avut două niveluri (prioritate) de întreruperi: întreruperi mascate și nemascabile Întreruperile nemascabile sunt de obicei folosite doar pentru a raporta situații foarte grave, cum ar fi erorile de paritate a memoriei Toate dispozitivele I/O au o singură întrerupere masabilă Când un dispozitiv I/O solicită o întrerupere, CPU utilizează vectorul de întrerupere în timp ce indexează tabelul cu de intrări pentru a găsi adresa operatorului de întrerupere Intrările din tabel sunt descriptori de segment de octeți Tabelul poate începe oriunde în memorie Registrul global indică începutul său wwvnw HMuupii i^imand Cu un singur nivel de întrerupere, nu există nicio modalitate ca CPU să aibă un dispozitiv cu prioritate înaltă să întrerupă un handler de întrerupere cu prioritate medie în timp ce un dispozitiv cu prioritate scăzută interferează Procesoarele Intel folosesc de obicei un controler de întrerupere extern (de exemplu A) pentru a rezolva problema La prima întrerupere (de exemplu, cu prioritate n), procesorul este suspendat Dacă apare o altă întrerupere cu prioritate mai mare după aceea, controlerul de întrerupere va declanșa întreruperea a doua oară Dacă a doua întrerupere are o prioritate mai mică, ea nu este inițiată până la sfârșitul primei Pentru ca acest sistem să funcționeze, controlerul de întrerupere trebuie să știe într-un fel că rutina de întrerupere curentă sa încheiat Prin urmare, când procesarea întreruperii curente este complet încheiată, CPU trebuie să trimită o comandă specială controlerului de întrerupere turnul din hanoi Acum că am explorat nivelul arhitecturii setului de instrucțiuni al celor trei mașini, trebuie să rezumam totul Să aruncăm o privire mai atentă la același exemplu de rezolvare a problemei "Turnul din Hanoi") Lista arată versiunea Java a acestui program Cu toate acestea, pentru a evita problemele cu Java I/O, pentru mașinile Coge i și OMAP , vom traduce versiunea programului nu în Java, ci în C Singura diferență este înlocuirea instrucțiunii Java println cu o instrucțiune standard în limbaj C : printf("Mutați discul de la %d la %d\n", i, j) Sintaxa liniei din instrucțiunea printf nu este importantă (linia este tipărită literal, cu excepția caracterelor %d, ceea ce înseamnă că următorul întreg va fi reprezentat în notație zecimală) Singurul lucru important aici este că procedura este apelată cu trei parametri: un șir de format și două numere întregi Am folosit C pentru Coge i și OMAP deoarece biblioteca Java I/O nu este disponibilă pentru aceste mașini, dar biblioteca C I/O este Diferența este minimă - doar o singură linie de ieșire pe ecran Rezolvarea problemei "Turnul din Hanoi" în asamblatorul Coge I Lista arată un posibil rezultat al traducerii unui program C pentru un procesor Coge Registrul EBP este folosit ca indicator de cadru I Primele două cuvinte sunt necesare pentru legare, deci primul parametru n (sau N, deoarece macro-asamblatorul nu face distincție între majuscule și minuscule) este în celula EBP + , urmat de parametrii i și j în celulele EBP + și EBP + , respectiv Variabila locală k este în EUR + Lista Rezolvarea problemei "Turnul din Hanoi" pentru Soge I MODEL PLAT PUBLIC turnuri ; IXTERN printf:NEAR ; COD turnuri: PUSH EBP ; MOV EBP, ESP ; • CMP[EBP+ ], ; JNELI ; MOV EAX, [EBP+ ]; PUSH EAX ; MOV EAX, [EBP+ ]; PUSH EAX ; PUSH OFFSET FLAT:format ; CALL printf ; ADAUGĂ ESP, ; MP Gata'; LI: MOV EAX, ; SUB EAX, [EBP+ ] ; SUB EAX, [EBP+ ] ; MOV [EBP+ ], EAX; PUSH EAX ; MOV EAX, [EBP+ ]; PUSH EAX ; MOV EAX, [EBP+ ]; DEC EAX ; PUSH EAX ; CALL towers ; ADAUGĂ ESP, ; MOV EAX, [EBP+ ]; PUSH EAX' MOV EAX, [EBP+ ]; PUSH EAX ; IMPINGERE ; CALL towers ; ADAUGĂ ESP, ; MOV EAX, [EBP+ ]; PUSH EAX ; MOV EAX, [EBP+ ] ; PUSH EAX ; MOV EAX, [EBP+ ]; DEC EAX ; PUSH EAX ; CALL towers ; ADAUGĂ ESP, Gata: PLECA ; RET ; DATE format DB "Mutați discul c %d END Compilează pentru coge export 'turnuri' import printf salvează EBP (indicatorul de cadru) setează un nou indicator de cadru peste ESP if(n==l) ramura dacă n nu este egal cu printfi, j); salvarea parametrilor i, j și șirul de formatare este împins pe stivă în ordine inversă (cerința limbajului C) OFFSET FLAT este adresa de formatare apelează procedura printf elimina parametrii din stivă terminare începe calculul k= -ij EAX= -i EAX= -ij k=EAX începutul turnurilor de procedură (nl, i, k) EAX=i împinge i EAX=n EAX=nl împinge n- turnuri de apelare proceduri (n- , i, -ij) pe stivă elimină parametrii din stivă începutul procedurii turnuri ( , i, j) împinge j EAX=i împinge pe stiva i împinge pe stiva apelează turnuri ( , i, j) elimină parametrii din stivă începutul procedurii turnuri (nl, -ij, i) împinge i EAX=k împinge pe stivă la EAX = n EAX=n- împinge n- turnuri de apel de procedură (nl, -ij, i) pe indicatorul stivei de ajustare a stivei, pregătiți-vă pentru a ieși, reveniți la apelant la %d\n" ; format șir Procedura începe prin crearea unui nou cadru la sfârșitul celui vechi Pentru a face acest lucru, valoarea registrului ESP este copiată în indicatorul de cadru EBP Atunci n este comparat cu , iar dacă n > , săriți la instrucțiunea else Apoi, codul împinge trei valori pe stivă: adresa șirului de format, i și j, apoi se autoinvocă Parametrii sunt împinși pe stivă în ordine inversă, așa cum este cerut de limbajul C Un pointer către șirul de format trebuie plasat în partea de sus a stivei Procedura printf are un număr variabil de parametri, iar dacă parametrii sunt împinși pe stivă în ordine directă, procedura nu va ști unde se află șirul de format pe stivă După apelarea procedurii, este adăugat la registrul ESP pentru a elimina parametrii din stivă Ele nu sunt de fapt eliminate din memorie, dar schimbarea registrului ESP le face inaccesibile prin operațiuni normale de stivă Execuția secțiunii else începe la eticheta L Aici, expresia - i - j este mai întâi evaluată, iar valoarea rezultată este stocată în variabila k Indiferent de valorile lui i și j, numărul de discuri de pe al treilea pion este întotdeauna - i - j Stocarea valorii în variabila k elimină necesitatea evaluării acestei expresii a doua oară Procedura se autoapelează apoi de trei ori, de fiecare dată cu parametri noi După fiecare apel, stiva este eliberată Programatorii începători au uneori dificultăți Recursiunea derutează uneori oamenii Dar, de fapt, nu este deloc complicat Parametrii sunt pur și simplu împinși pe stivă, după care procedura se autoapelează Rezolvarea problemei "Turnul din Hanoi" în asamblatorul OMAP Acum luați în considerare același program de asamblare OMAP (Listing ) Deoarece programul OMAP este complet ilizibil chiar și după multă practică, am decis să definim câteva nume simbolice pentru a clarifica lucrurile Pentru ca un astfel de program să funcționeze, trebuie să fie rulat printr-un program numit cpp (preprocesorul C) înainte de asamblare Folosim litere mici aici deoarece asamblerul OMAP o cere (acest lucru în cazul în care cititorii doresc să tastați acest program și să-l ruleze) Lista - Rezolvarea problemei "Turnul din Hanoi" pentru OMAR tfdefine Param(c) r tfdefine Paraml GI #definiți Param r tfdefine FormatPtr G #defini kg tfdefine n minus l text r turnuri: push {z , z , z , gb, z , g} movr , Paraml tosgb, Param p Param(c), # bne else movw FormatPtr,#:lowerl :format movt FormatPtr,#:irreg b:format bl printf pop {r , r , r , gb, r , pc} @ salvați adresa de retur @ și registrele utilizate @ (n== )? @ dacă nu, mergeți la secțiunea else @ indicatorul de încărcare @ pentru a formata șirul @ prinț move olse: rsb to, rl, # subs k, k, r adaugă n minus , r , #-l SHOVG , n minus l movr j k bl turnuri SHOVG , # movrl, r movr j r bl turnuri movr j n minus l movrl, to movr j r bl towers pop {gz, r , r , r l r , pc} principal global principal: împinge {Ir} movParamOj # movParamlj # movParam j Param(c) bl towers pop {pc} format: ascii "Mutați un disc de la %d în k= - i - j ( calculează(n- ) ( pentru apel recursiv @ caii towers(n-lj i, k) @ caii towers(lj k, j) @ caii towers(n-lj k, j) @ restabiliți registrele modificate @ și controlul de întoarcere @ salvați adresa de retur @ caii towers( j , ) @ extrage adresa de retur^ @ return control %d\n\ " Conform algoritmului, versiunea OMAP este identică cu versiunea Coge I În ambele cazuri, n este verificat mai întâi, iar dacă n > , săriți la else Principalele dificultăți ale versiunii OMAP sunt asociate cu unele caracteristici ale arhitecturii de instrucțiuni Codul OMAP trebuie să treacă mai întâi adresa șirului de format la printf, dar aparatul nu poate muta pur și simplu adresa în registrul care conține parametrul de ieșire, deoarece nu puteți introduce o constantă de de biți în registru într-o singură comandă Pentru a face acest lucru, trebuie să executați două comenzi: MOVW și most Nu este nevoie să ajustați stiva după apel, deoarece fereastra de înregistrare este ajustată automat de comenzile PUSH și POP la începutul și sfârșitul procedurii Aceste instrucțiuni asigură, de asemenea, că adresa de retur este salvată și restaurată la intrare, registrul LR este salvat, iar la ieșire, registrul PC-ului este salvat Arhitectura IA- si procesor Itanium În jurul anului , specialiștii Intel au început să realizeze că va veni în curând momentul în care tot ce era posibil va fi stors din linia de procesoare IA- Modelele mai noi s-au îmbunătățit doar datorită noilor tehnologii de producție care au făcut posibilă reducerea dimensiunii tranzistorilor (și, prin urmare, creșterea vitezei de ceas) Cu toate acestea, a devenit din ce în ce mai dificilă creșterea vitezei de lucru, iar motivul pentru aceasta au fost limitările inerente arhitecturii comenzilor IA- Singura soluție eficientă la problema în dezvoltarea de noi procesoare este trecerea de la IA- la o nouă arhitectură de instrucțiuni Acestea sunt planurile pe care Intel le construiește Mai mult, ar trebui să lanseze două noi linii Prima dintre acestea, numită EMT- , este o versiune extinsă a Pentium cu registre de de biți și un spațiu de adrese de de biți Această arhitectură rezolvă problema spațiului de adrese, dar păstrează complexitățile de implementare ale predecesorilor săi Poate fi numită o versiune extinsă a arhitecturii Pentium O altă arhitectură dezvoltată în comun de Intel și Lewlett Packard se numește IA- Aceasta este deja o mașină cu drepturi depline pe de biți, nu o extensie a unei mașini pe de biți În plus, este izbitor de diferit de IA- în multe privințe Inițial, IA- ar trebui să fie adus pe piața sistemelor de server profesionale, dar este foarte posibil ca ulterior această arhitectură să fie consolidată pe segmentul desktop În orice caz, arhitectura IA- , implementată pentru prima dată în linia de procesoare Itanium, este atât de diferită de tot ceea ce am considerat înainte, încât este pur și simplu necesar să o cunoaștem mai bine Deci, restul secțiunii este dedicată arhitecturii IA- ca atare și implementării acesteia în procesoarele din seria Itanium Problema IA- Înainte de a trece la o revizuire detaliată a arhitecturii IA- și a procesorului Itanium , este util să înțelegem pentru ce este de fapt proastă arhitectura IA- și ce probleme intenționează Intel să rezolve prin dezvoltarea unei noi arhitecturi Problema principală este că IA- este o arhitectură veche de instrucțiuni cu proprietăți complet nepotrivite pentru tehnologiile moderne Aceasta este o arhitectură CISC tipică cu lungimi diferite de instrucțiuni și un număr mare de formate diferite care sunt dificil de decodat rapid și din mers Tehnica actuală funcționează cel mai bine cu arhitecturile RISC în care instrucțiunile sunt uniforme ca dimensiune și opcode-ul are lungime fixă, astfel încât este ușor de decodat Deși instrucțiunile arhitecturii IA- în timpul execuției programului pot fi împărțite în micro-operații precum comenzile RISC, dar acest lucru necesită hardware suplimentar (spațiu pe cip), în plus, necesită timp și complică dezvoltarea Acesta este primul dezavantaj IA- este o arhitectură orientată spre memorie și instrucțiuni cu două adrese Arhitecturile de instrucțiuni de încărcare/stocare sunt populare în prezent, în care accesările la memorie sunt efectuate doar pentru a plasa operanzi în registre, iar toate calculele sunt efectuate folosind instrucțiuni de registru cu trei adrese Deoarece viteza procesorului crește mult mai repede decât memoria, situația cu ІА- se înrăutățește în timp Acesta este al doilea dezavantaj Arhitectura IA- conține un set mic și neregulat de registre Acest lucru complică dezvoltarea compilatoarelor, în plus, din cauza numărului mic de registre de uz general (patru sau șase, în funcție de locul în care sunt plasate registrele ESI și EDI), trebuie să scrieți în mod constant rezultate intermediare în memorie, ceea ce duce la suplimentare accese de memorie, chiar și atunci când nu sunt necesare de logica lucrurilor Acesta este al treilea dezavantaj Arhitectura IA- si procesor Itanium Din cauza numărului insuficient de registre, există multe situații de dependență, în special dependențe WAR, deoarece rezultatele intermediare trebuie plasate undeva și nu există registre suplimentare Din cauza lipsei registrelor, se impune constant înlocuirea acestora (adică folosirea registrelor ascunse) Pentru a evita pierderile prea frecvente ale memoriei cache, comenzile trebuie executate în afara ordinului Cu toate acestea, semantica arhitecturii IA- definește întreruperi precise, astfel încât instrucțiunile executate în afara ordinii trebuie să scrie rezultatele în registrele de ieșire în ordine strictă Toate acestea sunt foarte greu de implementat în hardware Acesta este al patrulea dezavantaj Pentru ca viteza de funcționare să fie ridicată, sistemul trebuie să fie puternic canalizat Cu toate acestea, aceasta înseamnă că este nevoie de multe cicluri pentru a executa orice instrucțiune Prin urmare, predicția precisă a ramurilor devine esențială, deoarece numai instrucțiunile necesare trebuie să intre în conductă Cu toate acestea, chiar dacă procentul de predicții incorecte este scăzut, performanța este redusă semnificativ Acesta este al cincilea dezavantaj Pentru a evita problemele de predicție greșită a ramurilor, procesorul trebuie să execute instrucțiunile speculative, cu toate consecințele care decurg Acesta este al șaselea dezavantaj Nu vom enumera mai departe deficiențele, deoarece este deja clar că în spatele lor există o problemă reală Ceea ce nu am menționat încă este că adresele IA- pe de biți limitează dimensiunea programelor individuale la GB, ceea ce este o problemă serioasă pentru serverele de înaltă performanță Să presupunem că această problemă este rezolvată în arhitectura EMT- , dar celelalte* dezavantaje rămân Situația cu IA- poate fi comparată cu starea de lucruri din mecanica cerească chiar înainte de apariția lui Copernic La acea vreme, astronomia era dominată de teoria geocentrică, conform căreia Pământul este centrul universului și este staționar, iar planetele se mișcă în jurul lui Totuși, noile observații au arătat tot mai multe inconsecvențe ale acestei teorii cu realitatea, până când în cele din urmă vechiul model s-a prăbușit sub greutatea propriei sale complexități interne Intel se afla aproape in aceeasi pozitie Numeroșii tranzistori din procesorul Core i sunt dedicați exclusiv conversiei instrucțiunilor CISC în instrucțiuni RISC, rezolvării conflictelor, predicției de ramificație, corectării consecințelor previziunilor greșite și multor alte sarcini de acest fel, lăsând puțin sau deloc lucru real de care are nevoie utilizatorul unele dintre aceste tranzistoare Prin urmare, Intel a ajuns la următoarea concluzie: trebuie să aruncați IA- la coșul de gunoi și să o luați de la capăt (IA- ) Arhitectura EMT- este destinată doar să câștige ceva timp, lăsând problema nerezolvată Model IA- - calcule cu paralelism explicit de instrucțiuni Principiul de bază al organizării arhitecturii IA- este transferul încărcăturii de la timpul de execuție la timpul de compilare Procesorul Core І în timpul execuției reordonează instrucțiunile, înlocuiește registrele, distribuie Acesta stabilește blocuri funcționale și îndeplinește multe alte funcții, ceea ce duce la utilizarea maximă a tuturor resurselor hardware În modelul IA- , aceste sarcini sunt acum rezolvate de compilator Ca rezultat, generează un program care poate fi executat fără manipulare nejustificată a hardware-ului De exemplu, în Coga i , compilatorul acționează ca și cum ar fi doar registre în mașină, deși sunt de fapt dintre ele, ca urmare, în timpul execuției programului, trebuie să ieși cumva pentru a evita interdependențele Conform arhitecturii IA- , compilatorul primește informații fiabile despre numărul de registre din mașină și apoi generează un program în care nu există conflicte între registre În plus, compilatorul monitorizează încărcarea blocurilor funcționale și nu rulează instrucțiuni care ar trebui să se refere la blocuri funcționale ocupate Modelul în care paralelismul hardware este vizibil pentru compilator se numește EPIC (Explicitly Parallel Instruction Computing) Într-o anumită măsură, modelul EPIC poate fi considerat o evoluție a tehnologiei RISC Unele caracteristici ale IA- cresc semnificativ productivitatea Printre acestea se numără reducerea numărului de accesări la memorie, programarea instrucțiunilor, reducerea numărului de salturi condiționate și operațiuni speculative Vom discuta despre toate aceste caracteristici atât din punct de vedere teoretic, cât și în contextul implementării lor în Itanium Reducerea numărului de accesări la memorie Modelul de memorie Itanium este destul de simplu Este furnizat un total de de octeți de memorie liniară Comenzile disponibile vă permit să accesați blocuri de memorie de , , , , și octeți (aceasta din urmă valoare a fost introdusă pentru compatibilitatea cu numerele în virgulă mobilă de de biți ale standardului IEEE ) Nu există o nevoie categorică de a alinia accesele la memorie de-a lungul granițelor naturale, dar performanța este mai scăzută fără aliniere Memoria poate fi fie big endian, fie little endian; un format sau altul este setat de un bit special într-un registru încărcat de sistemul de operare Lucrul cu memoria în computerele moderne este considerat un blocaj Acest lucru se datorează faptului că procesoarele funcționează mult mai rapid decât modulele de memorie Numărul de accesări la memorie poate fi redus prin plasarea unui cache mare de prim nivel pe cipul procesorului și a unui cache și mai mare de nivel al doilea în imediata apropiere a cipului Două module de memorie cache sunt echipate cu toate procesoarele moderne În același timp, există și alte metode pentru a reduce cantitatea de interacțiune cu memorie, iar unele dintre ele sunt implementate în IA- Cea mai bună modalitate de a accelera accesul la memorie este să efectuați această operație în fundal Procesorul Itanium are de registre de uz general pe de biți Primele dintre ele sunt statice, iar restul de sunt grupate într-o stivă de registre, care amintește de fereastra de registre a altor procesoare RISC (de exemplu, UltraSPARC) Spre deosebire de UltraSPARC, numărul de registre disponibile pentru un program variază de la o procedură la alta Ca rezultat, fiecare procedură are acces la de registre statice și un număr (variabil) de registre alocate dinamic Arhitectura IA- si procesor Itanium Când procedura este apelată, indicatorul stivei de registre este deplasat astfel încât parametrii de intrare să fie vizibili în registre, dar registrele în sine nu sunt distribuite între variabilele locale Procedura în sine determină numărul de registre de care are nevoie și mută indicatorul stivei în consecință Nu este nevoie să salvați conținutul acestor registre la intrare și să le restaurați la ieșire, deși dacă o procedură trebuie să modifice un registru static, trebuie mai întâi să-l salveze în mod explicit la valoarea anterioară și ulterior să-l restabilească Deoarece numărul de registre este exprimat printr-o variabilă disponibilă și este determinat de cerințele fiecărei proceduri particulare, utilizarea ineficientă a registrelor este eliminată În plus, adâncimea maximă a unui apel de procedură este mărită, la care registrele nu trebuie să fie "transformate" în memorie Itanium are de registre în virgulă mobilă organizate conform standardului IEEE și nestivuite Un număr mare de registre de acest tip vă permite să stocați rezultatele intermediare ale multor operații cu virgulă mobilă în registre fără a le muta în memorie În plus, Itanium oferă de registre de predicate de bit, registre de salt și de registre de aplicații specializate care sunt utilizate pentru o varietate de scopuri, cum ar fi schimbul de parametri între programele de aplicație și sistemul de operare Schema generală a registrelor Itanium este prezentată în fig de registre în virgulă mobilă de registre de predicate de bit registre generale de registre utilizate ca stivă de registre de registre statice registre aplicate registre de tranziție Orez Itanium registre Planificarea echipei Una dintre cele mai grave neajunsuri ale Cope I este dificultatea de a programa instrucțiuni pentru procesare în diferite blocuri funcționale fără interdependențe Pentru a rezolva această problemă în timpul execuției, sunt implicate mecanisme foarte complexe, al căror suport hardware necesită mult spațiu pe cip În arhitectura IA- și implementarea acesteia - Itanium - aceste probleme sunt rezolvate prin transmiterea funcțiilor corespunzătoare la compilator Fiecare program constă acum dintr-o secvență de grupuri de instrucțiuni Comenzile din cadrul aceluiași grup nu intră în conflict între ele, nu consumă mai multe resurse și nu se referă la mai multe blocuri funcționale, decât cele furnizate de sistem nu formează interdependențe RAW și WAW (interdependențele WAR sunt permise într-o măsură limitată) Se pare că grupurile succesive de instrucțiuni sunt executate strict în ordine, deși, de fapt, dacă este sigur, procesorul poate rula o parte din instrucțiunile grupului următor înainte de finalizarea celui precedent Astfel, procesorul poate programa execuția instrucțiunilor în cadrul fiecărui grup individual în orice ordine, dacă este posibil, în mod paralel În acest caz, probabilitatea de conflicte între echipe este zero Dacă un grup de comenzi încalcă regulile de mai sus, comportamentul programului devine nedefinit Într-o astfel de situație, responsabilitatea de a se asigura că codul de asamblare obținut din programul sursă respectă toate cerințele revine compilatorului Pentru a accelera compilarea în timpul depanării unui program, compilatorul poate plasa fiecare comandă într-un grup separat; acest lucru este simplu de făcut, dar performanța este degradată ca urmare a acestei operațiuni În procesul de generare a versiunii finale a codului, compilatorul petrece o cantitate semnificativă de timp optimizându-l Comenzile sunt combinate în pachete de de biți, ca cel prezentat în partea de sus a Fig Fiecare pachet conține trei instrucțiuni pe de biți și un model de biți Numărul de fascicule dintr-un grup de comenzi nu este întotdeauna exprimat ca un întreg - în unele cazuri, grupurile încep și se termină în mijlocul fasciculelor biți biți Grup de operații registrul de predicate Orez Fasciculul din arhitectura IA- este format din trei comenzi Există peste de formate de comandă Pe fig arată cel mai comun format În acest caz, este folosit pentru a efectua operația ADD cu ALU, care plasează suma a două registre în al treilea Câmpul grup de operații definește clasa generală a instrucțiunii (de exemplu, operația ALU cu numere întregi) Câmpul tip tranzacție indică tranzacția specifică (de exemplu, ADD sau SUB) Urmează trei câmpuri de înregistrare Ultimul câmp al acestui format, câmpul registrului de predicate, va fi discutat puțin mai târziu Șablonul de pachet indică ce blocuri funcționale sunt necesare pentru a-l procesa și, de asemenea, determină poziția limitei grupului de instrucțiuni (dacă există) Principalele blocuri funcționale sunt instrucțiuni ALU întregi și non-întregi, accesări la memorie, operații în virgulă mobilă, tranziții etc Evident, cu șase blocuri și trei instrucțiuni pentru ortogonalitate completă, sunt necesare combinații de bază plus x combinații suplimentare pentru a defini marcatorii de grup după instrucțiunile , și Deoarece sunt disponibili doar biți, sunt permise doar câteva dintre varietatea de combinații Pe de altă parte, dacă trei instrucțiuni în virgulă mobilă ar putea fi incluse în pachet simultan, procesorul pur și simplu nu le-ar putea rula simultan Astfel, sunt considerate valide numai combinațiile efectiv fezabile Reducerea numărului de salturi condiționate - predicție O altă caracteristică a arhitecturii IA- este un nou mod de a gestiona salturile condiționate Dacă ar fi posibil să scăpăm de majoritatea, procesorul ar fi mult mai simplu și ar rula mult mai rapid La prima vedere, ar putea părea imposibil să eliminați salturile condiționate, deoarece programele sunt întotdeauna pline de instrucțiuni if Cu toate acestea, arhitectura IA- și ( folosește o tehnologie specială numită predicare, care poate reduce foarte mult numărul lor [August et al , ; Hwu, Să descriem pe scurt această tehnologie În mașinile de astăzi, toate instrucțiunile sunt necondiționate în sensul că atunci când CPU întâlnește o instrucțiune, pur și simplu o execută Aici întrebarea nu este niciodată rezolvată: "A performa sau a nu face?" Dimpotrivă, într-o arhitectură de predicat, comenzile conțin condiții care vă spun când să executați comanda și când nu Această tranziție de la comenzile necondiționate la comenzile predicate este cea care ne permite să scăpăm de multe salturi condiționate În loc să alegeți una sau alta secvență de comenzi necondiționate, toate comenzile sunt îmbinate într-o singură secvență de comenzi predicate, în care diferite comenzi au predicate diferite Pentru a înțelege cum funcționează predicția, luați în considerare un exemplu simplu (listele - ) care arată execuția condiționată a comenzilor (execuția condiționată este precursorul predicației) În Lista , vedem o declarație if În Listarea , după ce a fost tradus, au existat trei comenzi: comparați, săriți și mutați În Lista - , am scăpat de saltul condiționat folosind noua instrucțiune CMOVZ, care este o instrucțiune de mutare condiționată Această instrucțiune verifică dacă al treilea registru R este egal cu zero Dacă este egală, atunci comanda copiază R în R , iar dacă nu, comanda nu face nimic Lista declarația dacă dacă (R == ) R = R ; Lista Cod de asamblare pentru Listarea CMP R , BNE LI MOV R , R LI: Lista Comanda condiționată CMOVZ R ,R ,R ■ /■"■a /rivona arhitectura naoora comenzi Dacă avem o instrucțiune care poate copia date atunci când orice registru este zero, atunci putem avea și o instrucțiune care copiază datele dacă orice registru nu este zero Să fie aceasta comanda CMOVN Cu ambele comenzi la locul lor, suntem deja pe drumul spre execuția completă condiționată Imaginați-vă o instrucțiune if cu mai multe instrucțiuni de atribuire în partea apoi și mai multe instrucțiuni de atribuire în partea else Acest întreg fragment de program poate fi tradus în cod care va seta un registru la dacă condiția nu este îndeplinită și la o altă valoare dacă condiția este îndeplinită Astfel, asignările din partea apoi pot fi compilate într-o secvență de instrucțiuni CMOVN, iar atribuirile din partea else pot fi compilate într-o secvență de instrucțiuni CMOVZ Toate aceste instrucțiuni, inclusiv instrucțiunile setului de registre, CNOVN și CMOVZ, formează un singur bloc principal fără salturi condiționate Comenzile pot fi chiar reordonate în timpul compilării sau în timpul executării Singura cerință este ca condiția să fie cunoscută până în momentul în care instrucțiunile condiționate trebuie să fie plasate în registrele de ieșire (adică undeva la capătul conductei) Un exemplu simplu de fragment de program cu instrucțiuni then și else este prezentat în Listările - Lista operator ȘI dacă(Rl == ) { R = R ; R =R ; } altfel { R =R ; R =R ; } Lista Cod de asamblare pentru Lista SIR R BNE L MOV-R ,R MOV R ,R BR L LI: MOV-R ,R MOV-R ,R L : Lista Execuție condiționată CMOVZ R ,R ,R CMOVZ R ,R ,R CMOVN-R ,R ,R CMOVN-R ,R ,R Am arătat doar instrucțiuni condiționale foarte simple (luate din arhitectura de instrucțiuni IA- ), dar în arhitectura IA- toate instrucțiunile sunt predicate Aceasta înseamnă că execuția fiecărei comenzi poate fi condiționată Câmpul suplimentar pentru Registrul de predicați pe biți pe care l-am menționat vă permite să selectați unul dintre cele de registre de predicate pe biți Prin urmare, instrucțiunea if poate fi compilată într-un cod care setează unul dintre registrele de predicat la dacă condiția este adevărată și la dacă condiția este falsă Celălalt caz predicat este inversat simultan și automat Astfel, la Arhitectura IA- si procesor Itanium g suport pentru predicție, instrucțiunile de mașină care sunt formate din instrucțiunile then și else se îmbină într-un singur flux de instrucțiuni, iar instrucțiunile primei dintre ele au un câmp de registru de predicate care se dovedește a fi unul, iar cel al celui de-al doilea este zero Când controlul este transferat, va fi executat un singur set de instrucțiuni Listările - arată cum este folosită predicția pentru a elimina tranzițiile Instrucțiunea CMPEQ compară două registre și setează registrul predicat P la dacă acestea sunt egale și la dacă nu sunt egale În plus, comanda inversează un alt registru, cum ar fi P Aceste comenzi if and then part pot fi plasate una după alta, fiecare dintre ele fiind asociată cu un anumit predicat (cazul indicat în paranteze) Orice cod poate fi plasat aici, atâta timp cât fiecare comandă este prezisă corect Lista operator ȘI dacă(R == R ) R = R + R ; Altfel R = R - R Lista Cod de asamblare pentru Lista SIR R R BNE L MOV-R ,R ADAUGĂ R ,R BR L LI: MOV R ,R SUB R jR L : Lista Execuția predicată CMPEQ Rl,R jP ADD R ,R ,R SUB R ,R ,R În arhitectura IA- , această idee este adusă la concluzia sa logică - aici comenzile de comparație, comenzile aritmetice și unele alte comenzi sunt asociate cu registrele de predicate Instrucțiunile predicate pot fi plasate secvenţial în conductă, fără probleme sau timpi de nefuncţionare Prin urmare, sunt foarte utile În arhitectura IA- , predicția are loc după cum urmează Fiecare instrucțiune este de fapt executată, iar la sfârșitul conductei, când este deja necesară stocarea rezultatului în registrul de ieșire, se verifică dacă predicția este adevărată Dacă da, rezultatele sunt pur și simplu scrise în registrul de ieșire Dacă predicția este falsă, atunci registrul de ieșire nu este scris Puteți citi mai multe despre predicție în literatura suplimentară [Dulong, ] Încărcare speculativă O altă caracteristică a IA- care îmbunătățește performanța este suportul pentru încărcare speculativă Dacă instrucțiunea speculativă LOAD eșuează, în loc să arunce o excepție, pur și simplu se oprește din execuție și raportează că registrul în care trebuia să fie încărcat este invalid Pentru - comenzi ursh pviirp Acesta folosește același bit otravă pe care l-am menționat în capitolul Și o excepție va fi aruncată numai dacă apoi încercați să utilizați acel registru De obicei, la încărcarea speculativă, compilatorul plasează comenzi LOAD înaintea altor comenzi Deoarece aceste comenzi încep să se execute mai devreme decât ar trebui, ele se pot finaliza înainte ca rezultatele să fie necesare În locul în care trebuie să obțină valoarea unui anumit registru, compilatorul introduce comanda SNECK Dacă valoarea este deja acolo, comanda CHESK funcționează la fel ca NOP, iar execuția programului continuă imediat Dacă încă nu există nicio valoare în registru, următoarea instrucțiune este forțată să fie inactivă În concluzie, putem spune că în mașinile cu arhitectura IA- sunt implementate mai multe mecanisme de creștere a performanței În primul rând, este o mașină RISC modernă, canalizată, cu trei adrese, care acceptă un mecanism de încărcare/stocare Numai acest factor reprezintă o îmbunătățire semnificativă față de complexitatea excesivă a arhitecturii IA- În al doilea rând, IA- acceptă modelul de paralelism explicit Compilatorul determină ce comenzi pot fi executate în același timp și, fără conflict, grupează aceste comenzi în pachete Astfel, procesorul poate programa pur și simplu procesarea fasciculelor fără să se gândească la vreo verificare Mutarea lucrării de la runtime la compilare este întotdeauna eficientă În al treilea rând, predicția vă permite să combinați comenzile ambelor salturi într-o declarație if, eliminând atât saltul condiționat, cât și necesitatea de a prezice acel salt În cele din urmă, încărcarea speculativă permite apelarea operanzilor înainte de timp și, chiar dacă mai târziu se dovedește că acești operanzi nu sunt necesari, nu se va întâmpla nimic rău Una peste alta, arhitectura Itanium este bine gândită și în interesul designerilor și utilizatorilor Deci, procesorul Itanium rulează pe computerul tău sau pe cel al vecinului tău? Răspunsul este nu, nu și din nou (cel mai probabil) nu Astăzi, la mai bine de ani de la lansarea procesorului Itanium, popularitatea sa poate fi descrisă în cel mai bun caz ca fiind moderată Dar Intel continuă să producă sisteme bazate pe Itanium, deși limitate la servere de înaltă performanță Deci, să revenim la problemele originale care au dus la crearea arhitecturii IA- Procesorul Itanium a fost creat pentru a corecta deficiențele arhitecturii IA- Deoarece nu este utilizat pe scară largă, cum rezolvă Intel aceste probleme? După cum va fi arătat în Capitolul , dezvoltarea IA- nu se bazează pe o reproiectare a arhitecturii setului de instrucțiuni, ci pe implementarea activă a calculului paralel bazat pe arhitecturi multiprocesor Pentru mai multe informații despre procesorul Itanium și microarhitectura acestuia, a se vedea literatura suplimentară [McNairy și Soltis, ; Rusu et al , ] Rezumatul capitolului Pentru majoritatea oamenilor, nivelul de arhitectură al setului de instrucțiuni este "limbajul mașinii", deși pe computerele CISC este de obicei construit peste nivelul inferior nivel de microcod La acest nivel, aparatul are memorie de octeți sau de cuvinte de câteva zeci de megaocteți și conține instrucțiuni precum MOVE, ADD și BEQ În majoritatea computerelor moderne, memoria este organizată ca o secvență de octeți, cu sau octeți grupați în cuvinte De obicei, o mașină are între și de registre, fiecare conținând un cuvânt În unele mașini (de exemplu, în Cori ) atunci când se accesează cuvinte de memorie, alinierea de-a lungul limitelor naturale ale celulelor nu este necesară, în altele (de exemplu, în OMAP ) aceasta este o condiție obligatorie Cu toate acestea, chiar dacă alinierea nu este o condiție prealabilă, operațiunile sunt mai rapide cu ea Instrucțiunile au de obicei , sau operanzi, care sunt accesați folosind diverse moduri de adresare: imediat, direct, registru, index și așa mai departe Unele mașini acceptă un set extins de moduri complexe de adresare Destul de des, compilatorii nu pot folosi aceste moduri în mod eficient Instrucțiunile pot de obicei să mute date, să efectueze operații unare și binare (inclusiv operații aritmetice și logice), ramuri, proceduri de apel, să efectueze bucle și, uneori, unele I/O Instrucțiunile tipice mută un cuvânt din memorie într-un registru sau invers, se adună, se scad, se înmulțesc sau se împart două registre sau un registru și un cuvânt din memorie sau se compară două valori în registre sau memorie Destul de des, numărul de instrucțiuni din computere depășește În procesoarele CISC, există și mai multe Pentru a transfera controlul la nivelul arhitecturii instrucțiunilor, sunt utilizate diverse primitive: sărituri, proceduri de apelare și coroutine, captarea excepțiilor și gestionarea întreruperilor Salturile sunt necesare pentru a opri o secvență de instrucțiuni și a începe una nouă (poate aflată în memorie la o distanță considerabilă de prima) Procedurile vă permit să selectați un fragment al programului, care poate fi apoi apelat din diferite locuri din același program Coroutinele permit două fire de control să ruleze în paralel Captarea excepțiilor este utilizată pentru a semnala situații excepționale (de exemplu, o depășire) Mecanismul de întrerupere face posibilă efectuarea I/O în paralel cu calculele principale, în timp ce de îndată ce I/O este finalizată, procesorul central primește un semnal despre acesta Problema Turnului din Hanoi poate fi rezolvată folosind recursiunea Există, de asemenea, soluții* bazate pe iterație, dar sunt mult mai complexe* și mai puțin elegante decât soluția recursivă la care ne-am uitat În cele din urmă, arhitectura IA- utilizează modelul de calcul EPIC, care simplifică implementarea paralelismului în programe Pentru a îmbunătăți performanța, această arhitectură asigură gruparea instrucțiunilor, predicția și încărcarea speculativă Arhitectura IA- poate fi un bun înlocuitor pentru Coge i , chiar dacă impune o sarcină grea compilatorului în ceea ce privește menținerea paralelismului Cu toate acestea, lucrul în etapa de compilare este întotdeauna de preferat decât să o faci în timpul execuției Întrebări și sarcini Un cuvânt dintr-un sistem big endian i se atribuie valoarea numerică Să presupunem că acest cuvânt este transferat octet cu octet și stocat într-un sistem big endian, cu octetul sursă corespunzând octetului destinație și așa mai departe valoarea numerică a unui cuvânt într-un sistem big-endian? Anterior, multe sisteme de operare și calculatoare utilizau spații separate de instrucțiuni și date, astfel încât o adresă de ^-bit putea reprezenta până la k adrese de program și k adrese de date De exemplu, pentru k = , programul ar putea accesa GB de instrucțiuni și GB de date; cantitatea totală de spațiu de adrese a ajuns la GB Deoarece un program nu se poate modifica în memorie folosind această schemă, cum ar putea sistemul de operare să aranjeze ca programele să fie încărcate în memorie? Dezvoltați un cod operațional extins care vă permite să codificați următoarele într-o instrucțiune pe de biți: • comenzi cu două adrese de biți și număr de registru de biți; • de comenzi cu o adresă de biți și număr de registru de biți; • de comenzi fără adrese și registre Lăsați mașina să accepte comenzi pe biți și adrese pe biți Unele comenzi conțin o adresă, altele două Dacă există n instrucțiuni cu două adrese, care este numărul maxim de instrucțiuni cu o singură adresă? Este posibil să se dezvolte un astfel de cod operațional extins care să permită codificarea următoarelor într-o instrucțiune de biți (un registru este reprezentat de biți): • comenzi cu trei registre; • de comenzi cu un singur registru; • comenzi fără registre Să existe o mașină unicast cu un registru de adunare Iată valorile câteva cuvinte de amintire: • cuvântul conţine numărul ; • cuvântul conține numărul ; • cuvântul conţine numărul ; • cuvântul conţine numărul ; Ce valori se vor încărca următoarele comenzi în registrul totalizatorului? ÎNCĂRCARE IMMEDIATĂ ÎNCĂRCARE DIRECT ÎNCĂRCARE INDIRECTA ÎNCĂRCARE IMMEDIATĂ ÎNCĂRCARE DIRECT ÎNCĂRCARE INDIRECTA Pentru fiecare dintre cele patru tipuri de mașini - non-adresă, uni-adresă, cu două adrese și trei adrese, scrieți un program pentru calcularea următoarei expresii: X = (A + B x C) / (D - E x F) Următoarele comenzi sunt disponibile • fără adresă: PUSH L/, POP Af, ADD, SUB, MUL, DIV; • unicast: LOAD Af, STORE Af, ADD Af, SUB Af, MUL Af, DIV Af; • adresa dubla: MOV (X = Y), ADD (X = X + Y), SUB (X = X - Y), mul (X = X x Y), div (X = X/Y); • cu trei adrese: MOV (X = Y), ADD (X = Y + Z), SUB (X = Y - Z), mul (X = Y x Z), div (X = Y / Z) Aici M este o adresă de memorie de biți, iar X, Y și Z sunt fie adrese de biți, fie registre de biți Mașina neadresată folosește o stivă, mașina unicast folosește un registru de acumulator, iar celelalte două au registre și instrucțiuni care funcționează pe toate combinațiile de locații și registre de memorie Instrucțiunea SUB XjY scade Y din X, iar instrucțiunea SUB X YjZ scade Z din Y și pune rezultatul în X Dacă opcode-urile sunt lungi de biți și dimensiunile instrucțiunilor sunt multipli de biți, de câți biți trebuie să fie fiecare mașină calculeaza X? Veniți cu un mecanism de adresare care vă permite să definiți un set arbitrar de de adrese într-un câmp de biți, nu neapărat adiacent Care este dezavantajul programelor automodificatoare care nu a fost menționat în textul acestui capitol? Schimbați următoarele formule de la notația infixă la notația poloneză inversă: ) L+B+C+DE- ) (L + B) x (C + D) + £; ) (A x B) + (C x D) + E; ) (L - B) x (((C - D x E) / F) / G) x H Care dintre următoarele perechi de formule cu notație polarizată inversă sunt echivalente din punct de vedere matematic? ) I B + C + și I B C + +; ) AB-C-iABC ; ) A B x C + și A B C + X Convertiți următoarele formule din notație poloneză inversă în notație infixă: m|*pg vn i pniiro KUIVIUN^ț Scrieți trei formule în notație poloneză inversă care nu pot fi convertite în notație infixă Convertiți următoarele formule logice infixe la notația poloneză inversă: ) (A ȘI B) SAU C; ) (L SAU V) ȘI (L SAU S); ) (L ȘI B) SAU (C ȘI D) Schimbați următoarea formulă infixă pentru a inversa notația poloneză și scrieți codul IJVM pentru a o executa: ( x + ) - ( / + ) Câte registre sunt în aparat, ale căror formate de comandă sunt prezentate în fig ? În formatele de comandă din fig Opțiunile de format și se disting prin bitul Cu toate acestea, nu este furnizat niciun bit special pentru a defini opțiunea de format De unde știe hardware-ul că este necesară opțiunea ? În programare, se întâlnește adesea problema verificării dacă o variabilă X aparține intervalului de la A la B Dacă ar exista o instrucțiune cu trei adrese cu operanzi A, B și X, câți biți din codul de condiție ar fi setați de această instrucțiune? Descrieți un avantaj și un dezavantaj al mecanismului de adresare în ceea ce privește contorul de programe Cogei conține un bit de cod de condiție, a cărui stare depinde de transportul bitului după ce a fost efectuată o operație aritmetică De ce este nevoie de asta? Unul dintre prietenii tai bate la usa ta la ora dimineata si anunta bucuros ca a avut o idee grozava - sa creeze o echipa cu doua coduri de operare Ce vei face în această situație, să-ți trimiți prietenul să obțină un brevet sau să-i trimiți (gândește-te mai departe)? Următoarele forme de verificare sunt foarte frecvente în programare: dacă (k== ) dacă (a>b) dacă (k Adresă MULTICS compusă Orez Conversia unei adrese compuse MULTICS într-o adresă de memorie principală memorie virtuală Coge i Coge i are un sistem de memorie virtuală sofisticat care acceptă paginarea la cerere, segmentarea pură și segmentarea paginare Memoria virtuală este formată din două tabele: LDT (Local Descriptor Table) și GDT (Global Descriptor Table) Fiecare program are propriul său tabel de descriptor local și un singur tabel de descriptor global este partajat de toate programele de pe computer Tabelul descriptor local descrie segmentele locale ale fiecărui program (codul său, datele, stiva, etc ), în timp ce tabelul descriptor global descrie segmentele de sistem, inclusiv sistemul de operare însuși După cum sa menționat în capitolul , pentru a accesa un segment, Core i încarcă mai întâi selectorul de segment într-unul dintre registrele de segment Pe parcursul execuția programului, registrul CS conține selectorul de segment de cod, selectorul de segment de date DS și așa mai departe Fiecare selector este un număr de biți (Figura ) biți INDEX O-GDT -LDT Nivel de privilegii ( - ) Orez Selector Core i Unul dintre biții de selecție indică dacă segmentul este local sau global (adică căruia dintre cele două tabele de descriptori, local sau global, îi aparține) Alți biți determină numărul unui element din tabelul descriptor local sau global, astfel încât fiecare dintre aceste tabele este limitat la descriptori de segment de KB ( ) Cei doi biți rămași sunt legați de protecție Le vom descrie mai târziu Descriptorul este invalid și aruncă o excepție Poate fi încărcat în registrul de segment pentru a indica faptul că registrul de segment nu este disponibil, dar dacă încercați să utilizați mânerul , va fi aruncată o excepție Când un selector este încărcat într-un registru de segment, descriptorul corespunzător este apelat din tabelul de descriptor local sau global și stocat în registrele interne ale managerului de memorie, astfel încât să poată fi accesat rapid Descriptorul este format din octeți Aceasta include adresa de bază a segmentului, dimensiunea acestuia și alte informații (Figura ) Ruda de biți BAZĂ - LIMITĂ abordare BAZĂ - HG LIMITA - R DPL BAZĂ - - câmp LIMIT în octeți i- Tipul segmentului și protecția - Câmp LIMIT în pagini Segment de - biți Nivel de privilegii ( - ) - segment nu este în memorie - segment prezent în memorie - segment pe de biți Orez Descriptor de segment de cod pentru COGE i Segmentele de date sunt practic aceleași Formatul selectorului este ales astfel încât să simplifice căutarea descriptorului Mai întâi, pe baza bitului din selector, este selectat tabelul de descriptor local sau global Selectorul este apoi copiat în registrul de gestionare a memoriei temporare, iar cei mai puțin semnificativi trei biți sunt setați la , ceea ce înmulțește numărul de biți al selectorului cu În cele din urmă, adresa din tabelul de descriptor local sau global (care Capitolul Nivelul sistemului de operare stocate în registrele interne ale managerului de memorie), iar rezultatul este un pointer către mâner De exemplu, selectorul se referă la elementul din tabelul de descriptor global, care se află în adresa celulei GDT + Să vedem cum perechea (selector, offset) se transformă într-o adresă fizică Odată ce hardware-ul determină ce registru de segment este utilizat, caută descriptorul complet corespunzător acelui selector în registrele interne Dacă un astfel de segment nu există (selector ) sau nu este în prezent în memorie (P = ), se aruncă o excepție În primul caz, aceasta este o eroare de software; al doilea caz necesită ca sistemul de operare să apeleze segmentul dorit Hardware-ul verifică apoi dacă offset-ul este în afara segmentului Dacă iese, excepția este ridicată din nou În mod logic, descriptorul ar trebui să aibă un câmp de de biți pentru a defini dimensiunea segmentului, dar există doar de biți disponibili, deci în acest caz se folosește o schemă complet diferită Dacă câmpul G (Granularitate - granularitate) este , atunci câmpul LIMIT (valoare maximă) oferă dimensiunea exactă a segmentului (până la MB) Dacă câmpul G este , atunci câmpul LIMIT specifică dimensiunea segmentului în pagini, nu în octeți Dimensiunea paginii pe un computer Coge i nu este niciodată mai mică de KB, deci de biți sunt suficienti pentru segmente de până la de octeți Dacă segmentul este în memorie și offset-ul se află în limita segmentului, Coré I adaugă câmpul BASE de de biți (adresă de bază) din descriptor la offset, rezultând o adresă liniară (Figura ) Câmpul BASE este împărțit în trei părți și răspândit pe descriptor pentru a asigura compatibilitatea cu procesorul , care are o dimensiune BASE de doar de biți Prin urmare, fiecare segment poate începe oriunde în spațiul de adrese de de biți Orez Conversia unei perechi selector-offset într-o adresă liniară Dacă paginarea este dezactivată (determinată de un bit din registrul de control global), adresa liniară este interpretată ca o adresă fizică și trimisă în memorie pentru citire sau scriere Astfel, cu blocarea paginației, avem o schemă de segmentare "pură", în care adresa de bază a fiecărui segment este prezentă în descriptorul său Segmentele suprapuse sunt permise, deoarece ar fi prea plictisitor să petreci mult timp verificând dacă segmentele nu se suprapun Memorie virtuala Dacă paginarea este activată, adresa liniară este interpretată ca o adresă virtuală și mapată la o adresă fizică folosind tabele de pagini, la fel ca exemplele noastre Singura dificultate este că, cu o adresă virtuală de de biți și pagini de de biți, un segment K poate conține un milion de pagini, astfel încât maparea pe două niveluri este utilizată pentru a reduce dimensiunea tabelului de pagini pentru segmente mici Fiecare program care rulează are un tabel special de pagini care constă din de intrări pe de biți Adresa sa este specificată de registrul global Fiecare intrare din acest tabel indică un tabel de pagină care conține, de asemenea, de intrări pe de biți Intrările din tabelul paginii indică cadrele de pagină Schema este prezentată în fig Adresă liniară Biți g DIR PAGINA OFF A Directorul paginii Tabelul paginii cadru de pagină DR Cuvânt ales Orez Maparea liniară cu adresa fizică Pe fig În Figura , vedem o adresă liniară împărțită în trei câmpuri: DIR, PAGI* și OFE Câmpul DIR este folosit ca index în directorul paginii pentru a găsi un pointer către tabelul de pagini dorit Câmpul PAGE este un index în tabelul paginii când se găsește adresa fizică a cadrului de pagină În cele din urmă, câmpul OFF este adăugat la adresa cadrului paginii pentru a forma adresa fizică a octetului sau cuvântului dorit Dimensiunea fiecărei intrări în tabelul paginii este de de biți, dintre care conțin numărul cadrului paginii Biții rămași includ bitul de acces și bitul de modificare care sunt setate de hardware pentru a ajuta sistemul de operare, biții de securitate și alții Fiecare tabel de pagini conține intrări pentru de cadre de pagină de KB fiecare, astfel încât un tabel de pagini poate gestiona MB de memorie Un segment mai scurt de MB va avea un director de pagini cu o singură intrare (un pointer către tabelul său cu o singură pagină) Astfel, supraîncărcarea pentru segmentele scurte este de numai două pagini, mai degrabă decât un milion de pagini, așa cum ar fi cazul unui tabel de pagini cu un singur nivel Pentru a evita accesele repetate la memorie, managerul de memorie Coge I are suport hardware încorporat pentru găsirea combinațiilor de câmpuri DIR-PAGE utilizate recent și maparea lor la adresa fizică a cadrului de pagină corespunzător Acțiunile prezentate în fig sunt executate numai dacă combinația curentă a fost folosită mult timp În paginare, valoarea câmpului BASE din descriptor poate fi nulă Singurul lucru de care are nevoie câmpul BASE este să obțină o decalare ușoară, astfel încât să folosească elementul din mijloc, mai degrabă decât la începutul directorului paginii Câmpul BASE este inclus în descriptor doar pentru a implementa segmentarea pură (fără paginare) și, de asemenea, pentru compatibilitatea cu vechiul procesor care nu avea paginare Rețineți că dacă o anumită aplicație nu are nevoie de segmentare și se mulțumește cu un singur spațiu de adrese de paginare de de biți, acest lucru este ușor de realizat Toate registrele de segmente pot fi completate cu același selector, al cărui descriptor conține un câmp BASE nul și un câmp LIMIT maxim Offset-ul instrucțiunii va fi apoi o adresă liniară cu un singur spațiu de adresă, care este în esență paginarea tradițională Aceasta încheie considerația noastră asupra organizării memoriei virtuale în Core I Ne-am uitat la subsistemul de memorie virtuală Coré i mic (dar folosit în mod obișnuit); cititorul curios poate consulta documentația Coge I pentru informații despre extensiile de adresare pe de biți și suport pentru spațiile de adrese fizice virtualizate Cu toate acestea, în concluzie, merită să spunem câteva cuvinte despre protecție, deoarece aceasta este direct legată de memoria virtuală Coge i acceptă niveluri de protecție, unde nivelul este cel mai privilegiat și nivelul este cel mai puțin privilegiat (Figura ) Nivelul de protecție al unui program care rulează este indicat de un câmp de biți în Program Status Word (PSW), un registru hardware care conține coduri de stare Posibili utilizatori de diferite niveluri Woweven Orez Niveluri de protecție pentru procesorul Coge i și alți biți de stare În plus, nu numai programele, ci fiecare segment și sistem au un anumit nivel de protecție Atâta timp cât programul folosește doar propriile segmente de nivel, totul este în regulă Accesul la date de nivel superior este permis Accesul la datele de nivel inferior este interzis - în acest caz, apare o excepție Putem apela proceduri atât de nivel superior, cât și de nivel inferior, dar trebuie să controlăm cu strictețe situația Pentru a apela o procedură la un alt nivel, comanda CALL trebuie să conțină un selector în loc de o adresă Acest selector indică un mâner numit poarta de apel (caii gate) care poate fi folosit pentru a obține adresa procedurii dorite Astfel, este imposibil să faci o tranziție la mijlocul unui segment arbitrar la un alt nivel Pot fi folosite doar punctele de intrare oficiale Uită-te la fig La nivelul , vedem nucleul sistemului de operare, care controlează procesul I/O, funcționarea memoriei etc La nivelul , există un handler de apel de sistem Programele utilizator pot apela proceduri de la acest nivel, dar acestea sunt proceduri strict definite Nivelul conține rutine de bibliotecă care pot fi partajate între mai multe programe care rulează Programele utilizator pot apela aceste proceduri, dar nu le pot modifica La nivelul funcționează programele utilizator, care au cel mai scăzut grad de protecție Sistemul de protecție Core I , ca și schema de gestionare a memoriei, se bazează în general pe principiile sistemului MULTICS Excepțiile și întreruperile folosesc un mecanism similar Excepțiile și întreruperile se referă și la mânere, nu la adrese absolute, iar aceste mânere indică proceduri care trebuie executate Câmpul TYPE din fig vă permite să distingeți între segmente de cod, segmente de date și diferite elemente logice Memorie virtuală OMAP OMAP este o mașină pe de biți care acceptă memorie virtuală paginată bazată pe adrese de de biți mapate la un spațiu de adrese fizice de de biți În consecință, un procesor ARM poate suporta până la ( GB) de memorie fizică Sunt acceptate patru dimensiuni de pagină: KB, KB, MB și MB Mecanismul de afișare pentru aceste patru dimensiuni de pagină este prezentat în Fig Biți Adresă virtuală Adresă virtuală K de Offset K rad virtual Offset M rad virtual Offset M rad virtual Părtinire Adresă fizică KB cadru de pagină Offset KB cadru de pagină Offset MB cadru de pagină Offset MB cadru de pagină Offset Biți Orez Maparea adreselor virtuale cu cele fizice în OMAP Structura tabelelor de pagini OMAP este foarte asemănătoare cu cea a lui Coré i Mecanismul de mapare pentru pagini K este prezentat în Figura a Tabelul descriptor al primului nivel este indexat de cei biți superiori ai adresei virtuale Intrarea tabelului de descriptori de primul nivel specifică adresa fizică a tabelului de descriptori de al doilea nivel Această adresă, combinată cu următorii biți ai adresei virtuale, formează adresa descriptorului de pagină Descriptorul de pagină conține adresa cadrului paginii fizice și informații care definesc drepturile de acces la pagină Motorul de memorie virtuală OMAP acceptă patru dimensiuni de pagină Paginile cu dimensiuni de MB și MB sunt mapate la descriptori de pagină din tabelul de descriptori de primul nivel Nu este nevoie de tabele de al doilea nivel în acest caz, deoarece toate elementele indică o pagină fizică mare Descriptorii pentru K pagini sunt în tabelul de nivel al doilea Deoarece fiecare intrare din tabelul de descriptor de nivel al doilea mapează o pagină virtuală de kiloocteți la o pagină fizică de kiloocteți, pentru o pagină de de KB, trebuie să existe descriptori identici în tabelul de descriptori de al doilea nivel De ce un programator sănătos de operare ar declara o pagină de K când pot fi folosite pagini K mai flexibile? Pentru că, după cum vom vedea în curând, paginile de KB necesită mai puține intrări TLB, iar această resursă este esențială pentru o performanță bună Nimic nu încetinește un program mai mult decât blocajele de memorie Privind cu atenție Fig În Figura , veți vedea că fiecare acces la memoria programului necesită două accesări suplimentare la memorie pentru a rezolva adresa Costul suplimentar de % pe memorie de acces necesar pentru a traduce adrese virtuale poate încetini orice program Pentru a elimina acest factor, OMAP folosește așa-numitul buffer de conversie rapidă Tabel de pagini (cautat de managerul de memorie pe ratari TLB) TLB (hardware manager de memorie) A b Orez Structuri de date utilizate pentru a traduce adresa virtuală SMAP : tabelul de traducere a adreselor (a); tampon TSB (b) memorie virtuala nume (Translation Lookaside Buffcr, TLB) pentru conversia rapidă a numerelor de pagină virtuală și a numerelor de cadru de pagină fizică Pentru pagini de KB, există de numere de pagini virtuale, peste un milion Desigur, nu toate pot fi afișate TLB stochează numai numerele paginilor virtuale care au fost utilizate ultima dată Paginile de comandă și datele sunt tratate separat Pentru fiecare dintre aceste categorii, TLB include cele mai recente de numere de pagină Fiecare intrare TLB include un număr de pagină virtuală și numărul său de cadru fizic al paginii Când un număr de proces, numit ASID (Address Space Identifier) și o adresă virtuală sunt transmise managerului de memorie, managerul, folosind o schemă specială, compară simultan numărul de pagină virtuală cu toate elementele bufferului TLB pentru un anumit context deodată Dacă se găsește o potrivire, numărul cadrului de pagină din intrarea respectivă în buffer este concatenat cu offset-ul luat de la adresa virtuală pentru a obține o adresă fizică de de biți și unele steaguri (cum ar fi biții de securitate) Bufferul rapid de traducere a adresei este prezentat în Fig , Dacă nu se găsește nicio potrivire, adică există o pierdere TLB (asemănătoare cu o pierdere de cache), are loc o enumerare hardware a tabelelor de pagini Când o nouă intrare de descriptor de pagină fizică este găsită în tabelul de pagini, aceasta este verificată pentru a vedea dacă pagina este în memorie, iar dacă verificarea este pozitivă, traducerea adresei corespunzătoare este încărcată în TLB Dacă pagina nu este în memorie, apare o eroare standard de pagină Deoarece numărul de intrări în TLB este mic, șansele ca o intrare TLB existentă să fie evacuată sunt mari Apelurile viitoare către pagina preempțiată vor trebui să itereze din nou conținutul tabelelor de pagină pentru a obține maparea adresei Dacă prea multe pagini sunt evacuate prea repede, va avea loc thrashing și majoritatea accesărilor la memorie vor genera o suprasarcină suplimentară de % Este interesant să comparăm organizarea memoriei virtuale în Cor i și OMAP Core I acceptă segmentarea pură, paginarea pură și segmentarea combinată cu paginarea OMAP acceptă numai paginarea Atât Coré I , cât și OMAP reîncarcă elementul buffer TLB în hardware în cazul unei pierderi TLB Alte arhitecturi (cum ar fi SPARC și MIPS) pur și simplu transferă controlul către sistemul de operare Aceste arhitecturi definesc comenzi speciale cu privilegii TLB, astfel încât sistemul de operare să poată efectua căutarea tabelului de pagini și operațiunile de încărcare TLB necesare pentru traducerea adresei Memorie virtuală și cache La prima vedere, poate părea că memoria virtuală și memoria cache nu sunt legate în niciun fel, dar, de fapt, aceste mecanisme sunt similare Cu memoria virtuală, întregul program este stocat pe disc și paginat în pagini de dimensiune fixă O parte din aceste pagini se află în memoria principală Dacă programul folosește în principal pagini din memoria principală, erorile de pagină vor fi rare și programul va putea rula rapid Cu memorarea în cache, întregul program este stocat în memoria principală și împărțit în blocuri de dimensiune fixă Unele subseturi ale acestor blocuri se află în cache Dacă programul utilizează în principal blocuri de cache, atunci erorile de cache vor apărea rar și programul va putea rula rapid După cum puteți vedea, memoria virtuală și memoria cache sunt identice, cu excepția faptului că funcționează la diferite niveluri ale ierarhiei Desigur, memoria virtuală și memoria cache sunt oarecum diferite Erorile de cache sunt gestionate de hardware, în timp ce erorile de pagină sunt gestionate de sistemul de operare Blocurile de cache sunt de obicei mult mai mici decât paginile (comparați de octeți față de KB) În plus, tabelele de pagini sunt indexate de biții înalți ai adresei virtuale, în timp ce memoria cache este indexată de biții de jos ai adresei de memorie Cu toate acestea, este important să înțelegem că diferența aici este doar în implementare, iar la nivel conceptual există o asemănare semnificativă Virtualizare hardware În mod tradițional, arhitecturile hardware au fost proiectate cu așteptarea că un singur sistem de operare rulează pe ele la un moment dat Tehnologiile populare de astăzi pentru partajarea resurselor de calcul (de exemplu, serverele de cloud computing) beneficiază foarte mult de capacitatea de a rula mai multe sisteme de operare simultan De exemplu, furnizorii de servicii de găzduire pe internet oferă de obicei clienților lor acces deplin la sistemul pe care este construit serviciul eb Ar fi prea irositor să instalați un nou computer în camera serverului pentru fiecare client nou În schimb, virtualizarea este de obicei utilizată, permițând mai multor sisteme complete (inclusiv sistemul de operare) să ruleze pe un singur server Numai când sarcina pe serverele existente devine prea mare, se adaugă un nou server fizic la pool-ul de servere Există tehnologii de virtualizare bazate exclusiv pe software, dar de obicei încetinesc sistemul virtual și necesită modificări speciale ale sistemului de operare sau utilizarea unor analizoare de cod complexe pentru a modifica programele în timpul execuției Toate acestea i-au determinat pe designeri să extindă stratul de sistem de operare în arhitecturile lor pentru a sprijini efectiv virtualizarea direct la nivel hardware Virtualizarea hardware (Figura ) este o colecție de instrumente hardware și software care permit mai multor sisteme de operare să ruleze simultan pe un singur computer fizic Din punctul de vedere al utilizatorului final, fiecare mașină virtuală care rulează pe un computer fizic arată ca un sistem de operare independent Hypervisorul, o componentă software care are multe în comun cu nucleul sistemului de operare, este responsabil pentru crearea și gestionarea instanțelor mașinilor virtuale Hardware-ul furnizează evenimentele care sunt vizibile la nivel de software și sunt solicitate de către hypervisor pentru a partaja accesul la procesor, sistemul de stocare și dispozitivele I/O Anexa X Anexa Anexa Anexa Z Anexa W Anexa V Anexa V Anexa Q OSA OSA OS IN OSS Suport hardware pentru mașină virtuală Suport hardware pentru mașină virtuală Suport hardware pentru mașină virtuală Suport hardware pentru mașină virtuală Hypervisor (componenta software) Arhitectura hardware și periferice ale unui computer fizic Orez Suportul hardware pentru virtualizare vă permite să rulați mai multe sisteme de operare simultan pe un singur computer fizic Hypervisorul gestionează partajarea memoriei și a dispozitivelor I/O Având mai multe mașini virtuale care rulează sisteme de operare diferite pe același computer fizic, deschide multe posibilități utile În sistemele de server, virtualizarea permite administratorilor de sistem să creeze mai multe mașini virtuale pe un singur server fizic și să mute mașinile virtuale care rulează între servere pentru o distribuție optimă a încărcăturii totale Mașinile virtuale oferă, de asemenea, mijloacele pentru a controla mai precis accesul la dispozitivele I/O De exemplu, lățimea de bandă a portului de rețea virtualizat poate fi alocată pe baza nivelurilor de servicii ale utilizatorului Virtualizarea permite unui utilizator individual să ruleze mai multe sisteme de operare în același timp Pentru ca virtualizarea să fie implementată în hardware, toate instrucțiunile din arhitectură trebuie să acceseze doar resursele mașinii virtuale curente Pentru majoritatea echipelor, această cerință este implementată în mod elementar De exemplu, instrucțiunile aritmetice ar trebui să funcționeze numai pe un fișier de registru, care poate fi virtualizat prin copierea registrelor mașinii virtuale în fișierul de registru al procesorului pe un comutator de context Virtualizarea instrucțiunilor de memorie (de exemplu, instrucțiuni de încărcare și stocare) este mai complicată, deoarece aceste instrucțiuni ar trebui să acceseze numai celulele de memorie fizică alocate mamei virtuale curente De obicei, un procesor care acceptă virtualizarea hardware trebuie să ofere un mecanism suplimentar de mapare a paginilor care leagă paginile de memorie fizică ale mașinii virtuale la paginile de memorie fizică ale computerului În cele din urmă, comenzile I/O (inclusiv I/O mapate în memorie) nu ar trebui să funcționeze direct pe dispozitivele I/O fizice, deoarece politica de virtualizare dictează adesea accesul la dispozitivele I/O Controlul I/O cu granulație fină este implementat de obicei prin întreruperi ale hypervisorului de fiecare dată când mașina virtuală încearcă să acceseze un dispozitiv I/O Acest lucru permite hypervisorului să implementeze politica de acces la resurse I/O pe care o consideră potrivită De obicei, un set de dispozitive I/O este acceptat, iar sistemele de operare care rulează în mașini virtuale (sisteme de operare invitate) folosesc numai aceste dispozitive acceptate Virtualizarea hardware în COG i Virtualizarea hardware în Coga i este susținută de extensiile de mașină virtuală VMX (Virtual Machine eXtcnsions) - un set de extensii de comandă, memorie și întrerupere care asigură controlul eficient al mașinilor virtuale În VMX, virtualizarea memoriei este implementată de sistemul EPT (Extended Page Table), care poate fi utilizat în virtualizarea hardware EPT traduce adresele paginilor fizice ale mașinii virtuale în adrese fizice ale computerului folosind o structură suplimentară de tabel stratificat, al cărei conținut este parcurs pe rata TLB a unei mașini virtuale Tabelul este întreținut de hypervisor, care poate organiza orice schemă dorită pentru partajarea memoriei fizice Virtualizarea operațiunilor I/O (atât comenzile, cât și I/O mapate în memorie) este implementată pe baza suportului extins de întrerupere definit în VMCS (Virtual-Machine Control Structure) Întreruperea hypervisorului este declanșată de fiecare dată când mașina virtuală accesează un dispozitiv I/O Când se primește o întrerupere, hypervisorul implementează operația I/O în software conform regulilor necesare pentru partajarea dispozitivelor I/O între mașinile virtuale Comenzi I/O virtuale După cum știți deja, seturile de instrucțiuni la nivel de arhitectură de instrucțiuni și la nivel de microarhitectură sunt complet diferite Nu numai comenzile în sine diferă, ci și formatele lor, iar unele coincidențe sunt complet aleatorii Setul de instrucțiuni la nivel de sistem de operare conține majoritatea instrucțiunilor la nivel de arhitectură de instrucțiuni, precum și câteva comenzi noi foarte importante În același timp, unele comenzi noi, dar importante la nivel de sistem de operare nu sunt acceptate I/O este o zonă în care cele două niveluri diferă foarte semnificativ Motivul acestor diferențe este simplu În primul rând, un utilizator capabil să execute instrucțiuni I/O la nivelul arhitecturii instrucțiunilor poate citi informații sensibile stocate undeva în "sălbăticia" sistemului de operare, ceea ce reprezintă potențial o amenințare pentru sistem În al doilea rând, un programator normal este complet reticent să implementeze I/O la nivelul arhitecturii de instrucțiuni, deoarece este prea complicat și plictisitor În schimb, pentru I/O, puteți pur și simplu să setați anumite câmpuri și biți într-un număr de registre de dispozitiv, apoi așteptați finalizarea operației și verificați ce s-a întâmplat De obicei, biții de înregistrare a dispozitivului de disc vă permit să detectați următoarele erori: + hardware-ul discului nu s-a poziționat; + element de memorie inexistent definit ca un buffer; + Procesul I/O de la disc (la disc) a început înainte ca cel precedent să se încheie; + eroare de sincronizare la citire; + acces la un disc inexistent; + acces la un cilindru inexistent; + apel la un sector inexistent; + Nepotrivirea sumelor de control în timpul citirii; + eroare de verificare a scrierii Dacă una dintre aceste erori este prezentă, marele corespunzător este setat în registrul dispozitivului Puțini utilizatori doresc să țină evidența tuturor acestor erori împreună cu o mulțime de informații despre stare Fișiere O modalitate de a face I/O virtuală este să utilizați o abstractizare numită fișier Un fișier constă dintr-o secvență de octeți scrisi pe un dispozitiv I/O Dacă dispozitivul de intrare/ieșire este un dispozitiv de stocare (de exemplu, un disc), atunci fișierul poate fi citit înapoi Dacă dispozitivul nu este un dispozitiv de stocare a informațiilor (de exemplu, este o imprimantă), atunci fișierul nu poate fi citit de acolo Un disc poate stoca multe fișiere, fiecare conținând un anumit tip de date, cum ar fi o imagine, o foaie de calcul sau un text Fișierele au lungimi diferite și au proprietăți diferite Această abstractizare facilitează organizarea I/O virtuală Pentru sistemul de operare, un fișier este pur și simplu o secvență de octeți Toată structurarea este determinată exclusiv la nivelul programelor de aplicație I/O este efectuată prin apeluri de sistem pentru a deschide, citi, scrie și închide fișiere Înainte ca un fișier să poată fi citit, acesta trebuie deschis Procesul de deschidere a unui fișier permite sistemului de operare să localizeze fișierul pe disc și să transfere în memorie informațiile de care are nevoie pentru a accesa fișierul După deschiderea fișierului, puteți citi datele din acesta Apelul de sistem citit trebuie să aibă cel puțin următorii parametri: + informații despre ce fișier deschis să citiți; + pointer către buffer-ul din memorie unde ar trebui să fie plasate datele; este numărul de octeți care trebuie citiți Acest apel de sistem pune datele necesare într-un buffer De obicei returnează numărul de octeți citiți Acest număr poate fi mai mic decât numărul solicitat (de exemplu, nu puteți citi de octeți dintr-un fișier de de octeți) Fiecare fișier deschis are asociat un pointer care spune ce octet trebuie citit în continuare După comanda de citire, indicatorul este umplut cu numărul de octeți citiți, așa că citesc comenzile de citire succesive! blocuri consecutive de date dintr-un fișier De obicei, acest indicator poate fi setat la o valoare specială, astfel încât programele să poată accesa orice parte a fișierului Când un program termină de citit un fișier, îl poate închide și poate spune sistemului de operare că nu va mai folosi fișierul Apoi sistemul de operare va putea elibera spațiu în structura în care au fost stocate informații despre acest fișier Mainframe-urile sunt încă în uz (în special pentru a servi site-uri de comerț electronic foarte mari) și multe dintre ele rulează sisteme de operare tradiționale (deși mulți rulează Linux) Sistemele de operare mainframe tradiționale utilizează un model de fișier ușor diferit Aici fișierul poate fi o secvență de înregistrări logice, fiecare dintre ele având o structură bine definită De exemplu, o înregistrare logică ar putea fi o structură de date formată din cinci câmpuri: două șiruri de caractere, "Nume" și "Cap", două numere întregi, "Departament" și "Cameră" și o valoare booleană "Gender Femei" Unele sisteme de operare fac distincție între fișierele în care toate elementele au aceeași structură și fișierele care conțin diferite tipuri de date Comanda principală de intrare virtuală citește următoarea intrare din fișierul dorit și o plasează în memoria principală, începând de la o anumită adresă, așa cum se arată în Fig Pentru a efectua această operație, instrucțiunea virtuală trebuie să știe ce fișier să citească și unde în memorie să plaseze scrierea Adesea există opțiuni pentru citirea unei anumite înregistrări, care sunt determinate fie de locația sa în fișier, fie de cheia acesteia Numărul de înregistrare logic Tampon O singură intrare logică memoria principala Intrare logică b Orez Citirea unui fișier format din înregistrări logice: înainte de citirea înregistrării (a); după citirea punctului (b) Comanda principală de ieșire virtuală scrie o înregistrare logică din memorie într-un fișier Comenzile de unire secvențială efectuează scrieri logice secvențiale într-un fișier Implementarea comenzilor I/O virtuale Pentru a înțelege cum sunt implementate comenzile I/O virtuale, trebuie să înțelegeți bine cum sunt structurate și stocate fișierele Principala problemă care trebuie rezolvată pentru toate sistemele de fișiere este alocarea spațiului O unitate de alocare (numită și "bloc") poate fi un singur sector pe un disc, dar mai des un bloc este format din mai multe sectoare consecutive comenzi virtuale I/O dud O altă proprietate fundamentală a implementării unui sistem de fișiere este modul în care blocurile de alocare sunt așezate (secvențial sau non-secvențial) Pe fig Figura prezintă un disc simplu cu o suprafață, constând din cinci piste, dar câte sectoare fiecare Pe fig , iar dosarul este format din sectoare consecutive Aranjamentul secvenţial al blocurilor este tipic pentru CD-uri Pe fig , b dosarul ocupă sectoare neconsecutive Această schemă este tradițională pentru hard disk-uri (și bineînțeles, pentru hard disk-uri) Sector Sector Direcția de rotație a discului Sector Sector Direcția de rotație a discului a b Orez Opțiuni pentru locația fișierului pe disc: fișierul ocupă sectoare consecutive (a); dosarul ocupă sectoare neconsecutive (b) Percepția unui fișier de către un programator de aplicații este foarte diferită de percepția unui fișier de către un sistem de operare Programatorul consideră un fișier ca o secvență liniară de octeți sau înregistrări logice Sistemul de operare tratează un fișier ca pe un set ordonat, deși nu neapărat secvenţial, de blocuri alocabile pe disc Pentru ca un sistem de operare să furnizeze un octet sau o înregistrare logică dintr-un fișier la cerere, trebuie să folosească o metodă pentru a localiza datele Dacă fișierul este contiguu, sistemul de operare trebuie să știe doar de unde începe fișierul pentru a calcula poziția octetului sau a înregistrării logice dorite Dacă fișierul nu este localizat secvențial pe disc, atunci numai din poziția inițială a fișierului este imposibil să se calculeze poziția unui octet arbitrar sau a unei înregistrări logice în acest fișier Pentru a găsi un octet arbitrar sau o intrare logică, aveți nevoie de un tabel numit index de fișier care vă permite să obțineți blocurile stocate pe disc și adresele lor fizice Un index poate fi organizat fie ca o listă de adrese de bloc (așa cum este folosită în UNIX), fie ca o listă de intrări logice, fiecare având o adresă de disc și un offset Uneori, fiecare intrare logică are o cheie, iar programele pot accesa intrarea prin acea cheie, mai degrabă decât prin numărul intrării logice În acest din urmă caz, fiecare element al tabelului trebuie să conțină ns ilaoa i conduce doar informații despre locația înregistrării pe disc, dar și cheia acesteia Această structură este folosită în mod obișnuit în sistemele principale O metodă alternativă pentru găsirea blocurilor alocabile într-un fișier este organizarea fișierului ca o listă legată În acest caz, fiecare bloc de alocare conține adresa următorului bloc Pentru a implementa eficient această schemă, în memoria principală este stocat un tabel cu toate adresele ulterioare De exemplu, pentru un disc cu blocuri de KB, sistemul de operare poate avea în memorie un tabel cu intrări de KB, fiecare conţinând indexul următorului bloc de alocare Deci, dacă fișierul ocupă blocurile , și , atunci elementul din tabel va conține numărul , elementul - numărul și elementul - un cod special care indică sfârșitul fișierului (de exemplu, sau - ) Așa funcționau sistemele de fișiere în MS-DOS, Windows și Windows Versiuni mai noi de Windows ( , XP, Vista și ) suportă acest sistem de fișiere, dar are și propriul său sistem de fișiere, care seamănă mai mult cu sistemul de fișiere UNIX Până acum, am spus că fișierele de pe un disc pot fi localizate atât secvențial, cât și inconsecvent, dar nu am explicat încă de ce sunt necesare aceste două aranjamente Fișierele secvențiale sunt ușor de gestionat, dar dacă dimensiunea maximă a fișierului nu este cunoscută dinainte, această tehnologie nu poate fi utilizată Dacă un fișier începe de la sectorul j și continuă spre sectoarele învecinate, s-ar putea întâlni cu un alt fișier din sectorul k, atunci nu va avea suficient spațiu pentru a se extinde Dacă fișierul este inconsecvent, atunci nu există astfel de probleme, deoarece următoarele blocuri pot fi plasate într-un loc diferit de pe disc Dacă discul conține un număr de fișiere "de lucru", ale căror dimensiuni finale pot varia, este aproape imposibil să le scrieți pe disc în blocuri de alocare consecutive Uneori este posibil să mutați un fișier existent, dar acest lucru este întotdeauna asociat cu un cost semnificativ de timp și resurse de sistem În același timp, dacă dimensiunea maximă a tuturor fișierelor este cunoscută dinainte (de exemplu, așa cum se întâmplă la inscripționarea unui CD), programul poate aloca în avans secvențe de sectoare care sunt exact egale ca lungime fiecărui fișier Dacă fișierele de sector , , și vor fi plasate pe un CD, ele pot începe pur și simplu de la sectoarele , , și, respectiv, (cuprinsul nu este luat în considerare aici) Găsirea oricărei părți a oricărui fișier este ușor, deoarece primul sector al fișierului este cunoscut Pentru a aloca spațiu pe disc pentru un fișier, sistemul de operare trebuie să țină evidența blocurilor disponibile și care sunt deja ocupate de alte fișiere Când scrieți pe un CD, calculul se face o dată pentru totdeauna, în timp ce pe hard disk, fișierele sunt scrise și șterse constant O modalitate de a ține evidența stării de sănătate a discului este să păstrați o listă cu toate golurile (fragmentele neutilizate), unde un fragment gol poate fi la fel de mare ca orice număr de blocuri de alocare consecutive Această listă se numește lista gratuită Pe fig , a arată lista de memorie liberă pentru disc din Figura , O soluție alternativă este stocarea unui bitmap de disc (un bit per bloc de alocare), așa cum se arată în Figura , Un bit indică faptul că blocul este deja ocupat, iar un zero indică că este liber Comenzi I/O virtuale U societate mixtă Ha Ha Pista O Sector b £ f o F F £ f F Oh, oh O despre DESPRE Orez Două abordări pentru urmărirea sectoarelor libere: lista de memorie liberă (a); bitmap (b) Prima abordare facilitează găsirea unui fragment neutilizat de o anumită lungime Cu toate acestea, această metodă are un dezavantaj: pe măsură ce fișierele sunt create și distruse, dimensiunea listei se va schimba, iar acest lucru nu este de dorit Avantajul unui bitmap este că dimensiunea sa este constantă În plus, pentru a schimba starea unui bloc de alocare (de la liber la ocupat sau invers), este suficient să modificați valoarea unui singur bit Cu toate acestea, cu această abordare, este dificil să găsiți un bloc de o dimensiune dată Ambele metode necesită ca atunci când un fișier este scris pe disc sau un fișier este șters de pe disc, lista de locații sau harta să fie actualizată Înainte de a părăsi discuția despre implementarea sistemului de fișiere, trebuie spus câteva cuvinte despre dimensiunea blocului de alocare Aici intervin mai mulți factori În primul rând, accesul la disc încetinește timpul de căutare și timpul petrecut cu rotația discului Dacă este nevoie de milisecunde pentru a găsi începutul unui bloc, atunci este mult mai profitabil să citiți KB (care va dura aproximativ o milisecundă) decât KB (care va dura aproximativ , milisecunde), deoarece dacă citiți KB ca blocuri de KB, va trebui să efectuați o căutare de ori Sunt necesare blocuri mari de alocare pentru a îmbunătăți performanța Desigur, pe măsură ce prețul scade și popularitatea SSD-urilor crește, acest argument își pierde treptat din importanță, deoarece aceste dispozitive au timp de poziție zero Există și un alt argument în favoarea blocurilor mari: cu cât dimensiunea blocului este mai mică, cu atât ar trebui să existe mai multe Un număr mare de blocuri alocate implică, la rândul său, indecși mari de fișiere și structuri mari de liste legate în memorie De exemplu, în sistemul MS-DOS, dimensiunea blocului era inițial de un sector ( octeți), iar sectoarele erau identificate prin numere de biți Când dimensiunea discurilor a început să depășească sectoarele de KB, a existat o singură modalitate de a utiliza tot spațiul pe disc cu identificarea blocului de biți: creșterea dimensiunii blocului Prima versiune a Windows a avut aceeași problemă, dar o versiune ulterioară* a folosit deja numere pe de biți Windows a acceptat ambele opțiuni eu lava i nivelul sistemului de operare Cu toate acestea, blocurile mici au și avantajele lor Faptul este că fișierele ocupă foarte rar exact un număr întreg de blocuri de alocare În consecință, aproape fiecare fișier va avea spațiu neutilizat în ultimul bloc de alocare Dacă dimensiunea fișierului este mult mai mare decât dimensiunea blocului de alocare, atunci spațiul mediu neutilizat va fi jumătate din bloc Cu cât blocul este mai mare, cu atât mai mult spațiu liber rămâne Dacă dimensiunea medie a fișierului este mult mai mică decât dimensiunea blocului de alocare, cea mai mare parte a spațiului pe disc va fi nefolosit De exemplu, în MS-DOS sau prima versiune de Windows cu o partiție de disc de GB, dimensiunea blocului de alocare este de KB, așa că atunci când un fișier de de caractere este scris pe disc, se irosesc de octeți de spațiu pe disc În ceea ce privește alocarea spațiului pe disc, blocurile de alocare mici au prioritate față de cele mari În prezent, cel mai important factor este rata de transfer de date, astfel încât dimensiunea blocurilor este în continuă creștere Comenzi de gestionare a directorului Cu mulți ani în urmă, programele și datele erau stocate pe carduri perforate Pe măsură ce programele au crescut în dimensiune și datele au devenit din ce în ce mai multe, această formă de stocare a devenit incomodă Atunci a apărut ideea de a folosi memoria auxiliară (de exemplu, un disc) pentru a stoca programe și date în loc de carduri perforate Informațiile care sunt disponibile unui computer fără intervenție umană se numesc operaționale (on-line) În schimb, informațiile off-line necesită intervenție umană (de exemplu, pentru a introduce un CD, un stick USB sau un card SD) Informațiile operaționale sunt stocate în fișiere Programele îl pot accesa prin intermediul programelor I/O Sunt necesare comenzi suplimentare pentru a ține evidența informațiilor operaționale, a le grupa în blocuri convenabile și a le proteja de utilizarea ilegală De obicei, sistemul de operare grupează fișierele de informații operaționale în directoare Pe fig ilustrează un exemplu de astfel de organizație În acest caz, apelurile de sistem sunt acceptate pentru cel puțin următoarele funcții: + crearea unui fișier și includerea acestuia în director; + ștergerea unui fișier dintr-un director; + redenumirea fișierelor; + modificați starea protecției fișierelor Toate sistemele de operare moderne vă permit să stocați mai mult de un director Fiecare director este de obicei un fișier în sine și, ca atare, poate fi inclus într-un alt director, rezultând o structură arborescentă ierarhică a directoarelor Un număr mare de directoare este deosebit de convenabil pentru programatorii care lucrează la mai multe proiecte Ei pot grupa toate fișierele asociate unui proiect într-un singur director Directoarele sunt, de asemenea, bune pentru partajarea fișierelor în grupuri de lucru Fișier Nume fișier: Rubber-ducky Dimensiunea fișierului : Fișierul Tip: Anatidae dataram Dosarul Data creării: martie Fișierul Ultima accesare: septembrie Dosarul ex Semafor = semafor + (dacă un alt proces încearcă acum să efectueze o operație de jos pe acest semafor, poate face acest lucru și își poate continua munca) Semafor = semafor + jos Procesul este suspendat până când un alt proces efectuează o operație ip pe acest semafor Semafor = semafor - După cum sa menționat deja, problema rasei poate fi rezolvată prin intermediul limbajului Java, dar acum discutăm despre sisteme de operare, prin urmare, trebuie să implementăm cumva mecanismul semaforului în Java, deoarece nu există o clasă standard pentru ele Totuși, putem face acest lucru presupunând că cele două metode, sus și jos, care fac respectiv apelurile de sistem sus și jos, au fost deja scrise și folosesc numere întregi obișnuite ca parametri Lista arată cum puteți rezolva condițiile de cursă folosind semafoare La clasa m se adaugă două semafore: un semafor disponibil, inițial egal cu (aceasta este dimensiunea tamponului) și un semafor umplut, inițial egal cu Producătorul începe cu declarația P , iar consumatorul începe cu declarația C Apelarea la semaforul umplut suspendă imediat consumatorul Când producătorul găsește primul număr, apelează metoda down cu variabila disponibilă ca parametru, setând-o la În instrucțiunea P , producătorul apelează metoda up cu parametrul completat, setând variabila completată la Aceasta acțiunea eliberează consumatorul, care poate finaliza acum apelul la metodă După aceea, umplut devine și ambele procese continuă Lista - - Operare paralelă folosind semafore public class m { final public static int BUF SIZE = ; // tampon de la la final public static long MAX PRIME= L; // opriți aici public static int in = , out = ; // indicii către date public static long buffer[ ] = nou lung[BUF SIZE]; // numerele sunt stocate aici producator public static p; // numele fabricantului consumator public static c; // numele consumatorului public static int complet = , disponibil = ; // semafoare public static void main(String args[ ]) { // clasa principală p = nou producator(); // creează un producător c = consumator nou(); // creează consumator R start(); // începe producătorul Cu start(); // porniți consumatorul comenzi virtuale pentru vărsături paralele // Aceasta este o funcție de aplicație pentru public static int next(int k) else return(O);} creștere ciclică ip și afară {dacă (k modul Orez Structura unui sistem UNIX tipic Deasupra driverelor de dispozitiv este sistemul de fișiere Opa gestionează fișierele, directoarele, alocarea blocurilor de disc, securitatea și multe alte funcții Sistemul de fișiere are așa-numitul block cache (Locc cache), conceput pentru a stoca blocurile citite recent de pe disc în cazul în care sunt necesare din nou Sunt utilizate unele sisteme de fișiere a căzut de mulți ani Printre acestea se numără sistemul rapid de fișiere Berkeley [McKusick și colab , ] și sistemul de fișiere jurnal | Rosenbluin și Ousterhout, ; Seltzer şi colab , ] O altă parte a nucleului UNIX este mecanismul de gestionare a proceselor Îndeplinește diverse funcții, inclusiv suport pentru interacțiunea dintre procese (InterProcess Communication, IPC) și sincronizarea acestora, ceea ce evită condițiile de cursă Codul de management al proceselor este, de asemenea, responsabil pentru planificarea proceselor pe baza priorităților acestora De asemenea, gestionează semnalele, care sunt o formă specială (asincronă) de întreruperi software În cele din urmă, gestionează și memoria Majoritatea sistemelor UNIX acceptă memoria virtuală de paginare la cerere, uneori cu unele caracteristici suplimentare (de exemplu, mai multe procese pot împărtăși zone comune ale spațiului de adrese) UNIX a fost conceput inițial ca un sistem foarte compact; compactitatea a fost menită să ofere fiabilitate și performanță sporite Primele versiuni ale UNIX erau toate bazate pe text și concentrate pe terminale care puteau afișa sau de linii de de caractere ASCII Interfața cu utilizatorul a fost controlată de un program numit shell care a furnizat o interfață de linie de comandă Deoarece shell-ul nu face parte din kernel, este ușor să adăugați noi shell-uri la UNIX și au fost dezvoltate de-a lungul timpului mai multe shell-uri extrem de complexe Mai târziu, odată cu introducerea terminalelor grafice, MIT a dezvoltat un sistem de ferestre pentru UNIX numit X Windows Mai recent, pe X Windows a fost instalată o interfață grafică de utilizator (GUI) cu funcții complete numită Motif Deoarece nucleul trebuia să rămână compact, aproape tot codul pentru X Windows și Motif rulează în afara nucleului în modul utilizator Windows Primul PC IBM, lansat în , era echipat cu un sistem de operare pe biți, în mod real, orientat spre utilizator, cu o interfață de linie de comandă Se numea MS-DOS Acest sistem de operare era un cod de kiloocteți care se afla în memorie Doi ani mai târziu, a apărut un sistem MS-DOS mai puternic de de kiloocteți Conținea un procesor de linie de comandă (shell) și multe dintre caracteristicile sale au fost împrumutate din sistemul UNIX În , IBM a lansat o mașină PC/AT cu sistemul de operare MS DOS- , care la acel moment avea deja o dimensiune de Kbytes De-a lungul anilor, MS-DOS a adăugat din ce în ce mai multe funcții, dar a rămas un sistem de linie de comandă Inspirat de succesul Apple Macintosh, Microsoft a decis să creeze o interfață grafică de utilizator pe care a numit-o Windows Primele trei versiuni de Windows, inclusiv Windows x, nu erau sisteme de operare "reale", ci interfețe grafice de utilizator bazate pe MS-DOS Toate programele rulau în același spațiu de adrese, iar o greșeală în oricare dintre ele ar putea duce la "înghețarea" întregului sistem În , a apărut sistemul Windows , dar nu a marcat abandonarea MS-DOS, dar noul MS-DOS a înlocuit versiunea anterioară de MS-DOS Windows și MS-DOS combinate aveau caracteristicile importante* ale unui sistem de operare avansat, inclusiv suport pentru memorie virtuală, managementul proceselor și multiprogramare Cu toate acestea, sistemul de operare Windows nu era un program complet pe de biți Opa conținea bucăți mari din vechiul cod de biți (cu puțin cod de de biți) și încă folosea sistemul de fișiere MS-DOS, cu toate deficiențele sale Singurele modificări semnificative ale sistemului de fișiere au fost o creștere a lungimii numelor de fișiere (anterior în MS-DOS, numele fișierelor erau limitate la + caractere) și eliminarea limitei anterioare (egale cu ) privind numărul de blocuri de disc Chiar și în Windows , lansat în , codul MS-DOS pe biți (de data aceasta versiunea ) era încă prezent Windows nu diferă prea mult de Windows , deși unele caracteristici au fost transferate de la MS-DOS în Windows, iar un format de disc potrivit pentru discuri mai mari a devenit standard Principala diferență a fost interfața cu utilizatorul, care combina desktop-ul, internetul și chiar, într-o oarecare măsură, televiziunea, făcând sistemul mai autonom Acesta este ceea ce a atras atenția Departamentului de Justiție al SUA, care a acuzat Microsoft de încălcarea legilor antitrust După ceva timp, o ediție ușor îmbunătățită a Windows a fost lansată sub numele Windows Millennium Edition (ME), dar nu a durat mult În timpul tuturor acestor evenimente, Microsoft dezvolta un nou sistem de operare perfect pe de biți Acest nou sistem a fost numit Windows New Technology (noua tehnologie Windows), sau pe scurt Windows NT Inițial trebuia să înlocuiască toate sistemele de operare concepute pentru calculatoare bazate pe procesoare Intel (precum și pe cele bazate pe PowerPC), dar distribuția sa a fost foarte lentă și ulterior a fost reorientată către computere mai puternice În acest segment, Windows N și-a găsit drum în serverele mari A doua versiune de Windows NT, numită Windows , a avut mult mai mult succes, inclusiv în segmentul computerelor de acasă Windows XP a devenit un adept al Windows , dar diferențele nu sunt atât de semnificative (în mare parte compatibilitate cu versiunea precedentă îmbunătățită și o serie de caracteristici suplimentare) În , a fost lansat următorul sistem din familia Windows, Windows Vista Au fost implementate numeroase îmbunătățiri grafice, precum și adăugate aplicații noi (de exemplu, Media Center) Utilizatorii nu s-au grăbit să migreze la Vista din cauza performanței scăzute și a cerințelor ridicate Lucrările la sistemul de operare, care mai târziu a fost numit Windows NT, a început după o serie de eșecuri cu versiunea pe biți a OS/ , ca parte a unui proiect comun între IBM și Microsoft pentru a crea un nou OS/ pe de biți sistem de operare Acest proiect, axat pe microprocesorul I , a început în , dar în anul următor cele două companii s-au despărțit, iar Microsoft a continuat să lucreze la OS/ v i-a dat numele Windows NT, dorind astfel, în primul rând, să se distanțeze de IBM și, în al doilea rând, să sublinieze faptul că folosește o singură interfață grafică cu toate shell-urile sale populare cu același nume - Primgch științific ed DM ilava despre nivelul sistemului de operare la resurse Doar doi ani mai târziu, a fost lansat Windows , care este din toate punctele de vedere o versiune optimizată a Windows Vista Windows rulează mult mai bine pe hardware mai vechi și necesită mult mai puține resurse hardware Windows este vândut în șase ediții diferite Trei versiuni sunt pentru utilizatorii casnici din diferite țări, două sunt pentru utilizatorii de afaceri și una combină caracteristicile tuturor versiunilor Versiunile sunt aproape identice; diferă doar prin focalizare, funcții avansate și optimizări Ne vom limita la trecerea în revistă a funcțiilor principale, fără a ne abate la o discuție asupra diferențelor dintre versiuni Înainte de a trece la interfața pe care Windows o oferă programatorului, să aruncăm o privire foarte scurtă asupra structurii interne a sistemului, prezentată în Figura Constă dintr-un număr de module distribuite pe niveluri și care implementează în comun sistemul de operare Fiecare modul îndeplinește o funcție specifică și are o interfață specifică cu alte module Aproape toate modulele sunt scrise în C, deși o parte din interfața grafică este scrisă în C++, iar unele dintre cele mai joase niveluri sunt în asamblator Modul utilizator Mod privilegiat Hardware Biblioteca de sistem - Funcții de expediere în modul utilizator Stratul de nucleu NTOS Expediere excepție/întrerupere Programarea și sincronizarea CPU, firele de execuție Drivere Sisteme de fișiere, manager de volum, stivă TCP/IP, interfețe de rețea, dispozitive grafice, toate celelalte dispozitive Proceduri și fire de execuție Memoria virtuală Gestionarea obiectelor Gestionarea configurației Apeluri de procedură locală Management cache Management I/O Management Security Monitor Bibliotecă executabilă de execuție NTOS la nivel executiv Stratul de abstractizare hardware Procesor, manager de memorie, controlere de întrerupere, memorie, dispozitive fizice, BIOS Orez Structura Windows În partea de jos se află stratul de abstractizare hardware Ar trebui să ofere sistemului de operare niște dispozitive abstracte, lipsite de toate defectele și ciudateniile în care dispozitivele reale sunt atât de bogate Dispozitivele simulate includ memorie cache off-chip, generatoare de ceas, magistrale I/O, controlere de întrerupere, controlere de acces direct la memorie Dacă aceste dispozitive sunt furnizate sistemului de operare într-o formă idealizată, va facilita portarea Windows pe alte platforme hardware, deoarece majoritatea modificărilor vor trebui făcute într-un singur loc Peste nivelul abstracțiilor hardware, codul este împărțit în două subsisteme majore: stratul executiv NTOS și driverele Windows, care includ codul sistemului de fișiere exemple de săli de operație Cum sisteme, suport de rețea și grafică Deasupra lor este nivelul nucleului Tot codul ;and'from este executat într-un mod privilegiat protejat Stratul executiv gestionează cele mai importante abstracții din Windows : fire de execuție, procese, memorie virtuală, obiecte kernel și configurație De asemenea, găzduiește subsisteme pentru gestionarea apelurilor de procedură locală, stocarea în cache a fișierelor, I/O și securitate În afara nucleului sunt programe de utilizator și o bibliotecă de sistem folosită pentru a interacționa cu sistemul de operare Spre deosebire de* UNIX, Microsoft nu încurajează programele utilizatorului să utilizeze direct apelurile de sistem Pentru a asigura standardizarea între diferite versiuni de Windows (de exemplu, XP, Vista și Windows ), a fost definit un set de funcții cunoscut sub numele de Win API (Application Programming Interface) Acestea sunt funcții de bibliotecă care* efectuează anumite acțiuni fie în sistem prin apeluri de sistem, fie, în unele cazuri, direct într-o procedură de bibliotecă în spațiul utilizatorului În timp ce multe funcții noi de bibliotecă au fost adăugate la Windows de la definirea Win , funcțiile de bază au rămas neschimbate; asupra lor ne vom concentra Windows a fost ulterior portat pe mașini pe de biți, iar Microsoft a schimbat numele suitei din Win în Win , dar pentru scopurile noastre, versiunea pe de biți este suficientă Filosofia Win API este complet diferită de filozofia UNIX În UNIX, toate apelurile de sistem sunt binecunoscute și formează o interfață minimă: eliminarea chiar și a unuia dintre ele va schimba modul în care funcționează sistemul de operare Subsistemul Win oferă o interfață redundantă în care aceeași acțiune poate fi adesea efectuată în trei sau patru moduri diferite În plus, Win include multe funcții care nu sunt apeluri de sistem (cum ar fi copierea unui întreg fișier) Multe apeluri API Win creează obiecte kernel de un fel sau altul (fișiere, procese, fire de execuție, conducte etc ) Fiecare apel care duce la crearea unui obiect kernel returnează un rezultat programului apelant, care se numește identificator (descriptor) (mâner) Acest mâner poate fi folosit ulterior pentru a efectua operații asupra obiectului Fiecare proces are propriul său mâner Nu poate fi transmis direct unui alt proces și utilizat de acel proces (descriptorii de fișiere din UNIX nu pot fi, de asemenea, transferați altor procese) Cu toate acestea, în anumite circumstanțe, puteți duplica mânerul, îl puteți transmite altor procese și le puteți permite accesul la obiecte care aparțin altor procese Fiecare obiect are asociat un descriptor de securitate care determină cine este permis și cine nu are voie să efectueze anumite operațiuni asupra obiectului Sistemul de operare Windows este uneori numit orientat pe obiecte, deoarece este posibil să se opereze pe obiecte kernel numai prin descriptorii lor prin apelarea metodelor (funcții API) Pe de altă parte, nu acceptă astfel de caracteristici de bază ale unui sistem orientat pe obiecte precum moștenirea și polimorfismul I IQBCI V /rivopv sistem de irigare Exemple de memorie virtuală În această subsecțiune, vom vorbi despre memoria virtuală în UNIX și Windows Din punctul de vedere al unui programator, acestea sunt foarte asemănătoare în multe privințe memorie virtuală UNIX Modelul de memorie UNIX este destul de simplu Fiecare proces are trei segmente: cod, date și stivă, așa cum se arată în Fig Într-o mașină cu un spațiu de adrese liniar, codul este de obicei situat în partea de jos a memoriei, urmat de date Stiva este plasată în partea de sus a memoriei Dimensiunea codului este fixă, iar datele și stiva pot crește sau micșora (în direcții diferite) Acest model este ușor de implementat pe aproape orice mașină În special, este folosit de variantele Linux care rulează pe procesoare TMAP Abordare Stiva xFFFFFFFF Date Cod O - Orez Spațiu de adrese pentru un singur proces în UNIX Mai mult, dacă aparatul acceptă memorie paginată, atunci întregul spațiu de adrese poate fi paginat complet transparent pentru programele utilizatorului Ei vor ști doar că dimensiunea programului poate depăși dimensiunea memoriei fizice a mașinii Acele sisteme UNIX care nu acceptă paginarea schimbă de obicei procese întregi între memorie și disc, astfel încât un număr arbitrar de procese să poată rula în paralel Descrierea anterioară a sistemului UNIX (paging memorie virtuală la cerere) este în general în concordanță cu versiunea Berkeley a UNIX, dar versiunile System V (și Linux) au câteva trăsături care permit utilizatorilor să gestioneze memoria virtuală Cel mai important este capacitatea unui proces de a mapa un fișier, sau o parte a unui fișier, la o porțiune din spațiul de adrese al procesului De exemplu, dacă un fișier de KB este mapat la adresa virtuală K, atunci celula de la adresa K va conține primul cuvânt al acelui fișier Astfel, este posibil să efectuați I/O fișier fără apeluri de sistem Deoarece unele fișiere sunt mai mari decât spațiul de adrese virtuale, este posibil să se afișeze nu întregul fișier, ci doar o parte a acestuia Pentru a afișa, mai întâi trebuie să deschideți fișierul și să obțineți descriptorul de fișier fd (descriptor de fișier) Mânerul este folosit pentru a identifica fișierul afișat Procesul efectuează apoi un apel paddr = mmap(adresă virtuală, lungime, protecție, steaguri, fd, offset fișier) Acest apel mapează octeții de lungime, începând de la offset-ul file offset din fișier, la spațiul de adrese virtuale, începând de la adresa virtuale exemple de sisteme de operare sau*r Parametrul flags necesită ca sistemul să selecteze adresa virtuală pe care Vatem o returnează în parametrul paddr Zona de afișare trebuie să fie aliniată la pagină și să conțină un număr întreg de pagini Parametrul de protecție specifică nivelul de protecție, inclusiv capacitatea de a citi, scrie și executa (orice combinație) Maparea poate fi eliminată ulterior folosind comanda unmap Mai multe procese pot afișa același fișier în același timp Există două opțiuni de împărțire În prima variantă, toate paginile sunt partajate, astfel încât intrările făcute de un proces sunt disponibile pentru Toate celelalte procese Această capacitate oferă o comunicare de mare viteză între procese În a doua variantă, paginile rămân comune tuturor proceselor atâta timp cât niciunul dintre procese nu le modifică De îndată ce un proces încearcă să scrie pe o pagină, va primi o eroare de securitate, determinând sistemul de operare să îi furnizeze propria copie a paginii pentru scriere Această schemă, numită copy on write (copy on write), este utilizată atunci când fiecare dintre mai multe procese trebuie să creeze iluzia că este singurul care realizează maparea fișierului În acest model, partajarea este o optimizare, nu o parte a semanticii Memorie virtuală Windows În Windows , fiecare proces de utilizator are propriul său spațiu virtual Pe Windows pe de biți, spațiul virtual de iad este de de biți, deci fiecare proces are GB de spațiu virtual de iad Cei GB de jos sunt pentru codul de proces și date; primii GB oferă acces la memoria nucleului (limitată) Excepție fac versiunile de server ale Windows , unde partajarea memoriei poate fi diferită ( GB pentru utilizator și GB pentru kernel) Spațiul de adrese virtuale cu pagini de paginare la cerere conține pagini de dimensiune fixă" ( KB pentru Cope I ) Spațiul de adresă al versiunii pe de biți a Windows are o structură similară, dar spațiul de cod și date din acesta se află în cei teraocteți inferiori ai spațiului de adrese virtuale Fiecare pagină virtuală poate fi în una dintre cele trei stări: gratuită, rezervată sau angajată Pagina gratuită nu este utilizată în prezent, iar accesarea ei provoacă o eroare de ieşire a paginii Când începe un proces, toate paginile sale sunt într-o stare liberă până când programul și datele inițiale sunt mapate în spațiul lor de adrese Dacă codul sau datele sunt mapate la o pagină, atunci pagina respectivă este selectată Un acces la o pagină alocată va avea succes dacă pagina se află în memoria principală Dacă pagina nu se află în memoria principală, va apărea o eroare și sistemul de operare va trebui să preia pagina corectă de pe disc O pagină virtuală poate fi, de asemenea, într-o stare rezervată Aceasta înseamnă că pagina rămâne indisponibilă pentru afișare până când rezervarea este anulată În plus față de atributele de stare a paginii, sunt imprimate și alte atribute (cum ar fi cele care indică citire, scriere și execuție) Cele KB de sus și KB de memorie sunt întotdeauna libere astfel încât să poată fi găsite erori de indicator (indicatorii neinițializați sunt adesea sau - ) Fiecare pagină alocată are o pagină umbră pe disc unde este stocată atunci când nu este în memoria principală Paginile gratuite și rezervate nu au pagini umbră, deci accesul la ele cauzează erori de pagină (sistemul nu poate prelua o pagină de pe disc dacă pagina nu este pe disc) Paginile umbră de pe disc sunt grupate în unul sau mai multe fișiere de pagină Sistemul de operare ține evidența căreia parte a fișierului de pagină se mapează fiecare pagină virtuală Fișierele cu texte de program au pagini umbră; paginile de date folosesc fișiere de pagină speciale Windows , ca și System V, permite ca fișierele să fie mapate direct în regiunile spațiului de adrese virtuale Dacă un fișier este mapat într-un spațiu de adresă, acesta poate fi citit sau scris în utilizând accesările normale de memorie Fișierele mapate în memorie sunt implementate în același mod ca și alte pagini alocate, doar paginile umbră pot fi într-un fișier disc, nu într-un fișier de pagină Ca urmare, atunci când fișierul este afișat, este posibil ca versiunea din memorie să nu se potrivească cu versiunea de pe disc (din cauza scrierilor recente în spațiul de adrese virtuale) Cu toate acestea, atunci când maparea fișierului este eliminată, versiunea de pe disc este actualizată Windows permite ca două sau mai multe procese să mapeze același fișier în același timp, eventual la adrese virtuale diferite Citind cuvinte din memorie și scriind cuvinte în memorie, procesele pot comunica între ele și pot transfera date în ambele direcții la o viteză suficient de rapidă, deoarece nu este necesară copierea Procesele diferite pot avea permisiuni de acces diferite Toate procesele care lucrează pe un fișier mapat partajează aceleași pagini, astfel încât modificările făcute de unul dintre procese sunt vizibile pentru toate celelalte procese, chiar dacă fișierul de pe disc nu a fost încă actualizat API-ul Win conține o serie de funcții care permit unui proces să gestioneze direct memoria virtuală Cele mai importante dintre aceste funcții sunt enumerate în Tabelul Toate rulează într-o zonă care constă fie dintr-o singură pagină, fie din două sau mai multe pagini situate secvenţial în spaţiul de adrese virtuale Tabelul Principalele funcții API pentru gestionarea memoriei virtuale în Windows XP Descrierea funcției API Rezervare VirtualAlloc sau alocarea domeniului VirtualFree Eliberarea unei zone sau deselectarea VirtualProtect Schimbați opțiunea de protecție (citire/scriere/execuție) VirtualQuery Interogare despre starea unei zone de memorie VirtuaILlock Dezactivează paginarea memoriei (zona de memorie devine rezidentă) VirtualUnlock Deblocare paginare Funcție API ('rratcFileMapping Descriere Creați un obiect de mapare a fișierului și atribuiți-i (nu întotdeauna) un nume MapViewOfFile Mapează un fișier sau o parte a unui fișier într-un spațiu de adrese J iunapViewOfFile Eliminați fișierul mapat din spațiul de adrese OpenFileMapping Deschideți un obiect de mapare fișier creat anterior Primele patru funcții sunt evidente Următoarele două funcții permit unui proces să creeze până la de pagini rezidente în memorie și să anuleze acea acțiune Această calitate poate fi necesară pentru programele care rulează în timp real Sistemul de operare stabilește o anumită limită pentru ca procesele să nu devină prea "lacom" Windows oferă și funcții API (nu sunt enumerate în Tabelul ) care permit unui proces să acceseze memoria virtuală a altui proces care se află sub controlul său (adică pentru care are un handle) Ultimele funcții API sunt pentru gestionarea fișierelor mapate în memorie Pentru a mapa un fișier, mai întâi trebuie să creați un obiect de mapare a fișierului folosind funcția CreateFileMapping Această funcție returnează un handle la obiectul de mapare a fișierului și, uneori, introduce și un nume pentru obiect în sistemul de fișiere, astfel încât un alt proces să îl poată utiliza Următoarele două funcții creează și, respectiv, elimină mapările fișierelor Ultima funcție este necesară pentru a afișa un fișier care este afișat în prezent de un alt proces Astfel, două sau mai multe procese pot partaja părți din spațiile lor de adrese Aceste funcții API sunt principalele Restul sistemului de management al memoriei este construit pe ele De exemplu, există funcții API pentru alocarea și eliberarea structurilor de date pe unul sau mai multe heap-uri Mulțile sunt folosite pentru a stoca structuri de date care sunt create și distruse dinamic Mulțile nu sunt dealocate în timpul colectării gunoiului, astfel încât software-ul utilizatorului trebuie să dealocați blocuri de memorie virtuală care nu mai sunt necesare (colectarea gunoiului se referă la eliminarea automată a structurilor de date neutilizate) Heap-ul Windows seamănă cu rezultatul unui apel UNIX malloc, dar în Windows XP, spre deosebire de* UNIX, pot exista mai multe heap-uri independente Exemple de I/O virtuale Orice sistem de operare este conceput în primul rând pentru a servi programele utilizatorului, iar serviciile principale sunt I/O de fișiere Atât UNIX, cât și Windows XP oferă o gamă largă de servicii I/O Există un apel echivalent pentru majoritatea apelurilor de sistem UNIX în Windows , dar inversul nu este adevărat deoarece Windows acceptă mult mai multe apeluri și fiecare este mult mai complex decât apelul UNIX corespunzător I/O virtuală în UNIX Sistemul UNIX este foarte popular, în mare parte datorită simplității sale, care, la rândul său, este un rezultat direct al organizării sistemului de fișiere Un fișier normal este o secvență liniară de octeți de biți de la la r) - maxim Sistemul de operare în sine nu implică nicio structură specifică de înregistrare a fișierelor, deși multe programe de utilizator tratează fișierele text ASCII ca secvențe de linii, fiecare dintre acestea se termină cu un caracter newline Cu fiecare fișier deschis este asociat un indicator către următorul octet care trebuie citit sau scris Sistemul de citire și scriere apelează date de citire și scriere începând de la poziția specificată de indicator După operație, ambele apeluri mută indicatorul într-o altă poziție, mutându-l exact cu numărul de octeți care au fost citiți sau scrisi Accesul aleatoriu la fișiere este posibil și atunci când indicatorul fișierului este setat la o anumită valoare Pe lângă fișierele obișnuite, sistemul acceptă fișiere speciale care sunt utilizate pentru a accesa dispozitivele I/O Fiecare dispozitiv I/O are de obicei unul sau mai multe fișiere speciale asociate cu el Citind informații din aceste fișiere și scriind informații în aceste fișiere, programul poate primi informații de la dispozitivul I/O și poate transmite informații către dispozitivul I/O Așa funcționează cu discuri, imprimante, terminale și multe alte dispozitive Principalele apeluri de sistem pentru fișiere în UNIX sunt date în tabel Apelul la creat (fără e obișnuit la sfârșit) este folosit pentru a crea un fișier nou În prezent, nu este necesar deoarece apelul deschis creează și un fișier nou Apelarea dezlegarii elimină fișierul (presupunând că fișierul există într-un singur director) Tabelul Apeluri sistem UNIX de bază Apel de sistem Descriere creat(nume, mod) Creare fișier; parametrul mode definește modul de protecție unlink(name) Ștergeți un fișier (presupunând că are o singură legătură) open(name, mode) Deschide sau creează un fișier și returnează un descriptor de fișier close(fd) Închide un fișier read(fd, buffer, count) Citiți din fișierul numără octeți în buffer write(fd, buffer, count) Scrie numărul de octeți din buffer în fișier lseek(fd, offset, w) Mutați indicatorul fișierului la valorile specificate de parametrii offset și \v stat(nume, buffer) Returnează informații despre un fișier chmod(namc, mode) Schimbați modul de protecție a fișierelor fcntl(fd, cmd, ) Efectuați diverse operații de control (cum ar fi blocarea unui fișier sau a unei părți a acestuia) Apelul deschis este folosit pentru a deschide fișiere existente, precum și pentru a crea altele noi Indicatorul de mod indică cum să îl deschideți (pentru citire, pentru scriere Pentru mulți, cuvintele despre octeți de biți pot părea ciudate, dar în trecut, un octet putea fi într-adevăr - atât pe cât și pe biți Acum, din obișnuință, credem că într-un octet există exact biți - Notă științific ed și g d ) Apelul returnează un mic întreg numit descriptor de fișier Descriptorul de fișier identifică fișierul la apelurile ulterioare Procesul I/O în sine este efectuat prin apeluri de citire și scriere, fiecare dintre acestea primește un descriptor de fișier ca parametri (indică ce fișier să folosească), un buffer pentru date și numărul de octeți transferați Apelul Iseek este folosit pentru a muta indicatorul fișierului, făcând posibilă accesarea unei locații arbitrare din fișier Apelul stat returnează informații despre fișier (dimensiune, ora ultimului acces, numele proprietarului etc ), apelul chmod modifică modul de protecție al fișierului (de exemplu, permite sau, dimpotrivă, interzice unor utilizatori să-l citească), în cele din urmă, Apelul fcntl permite efectuarea diferitelor acțiuni asupra fișierului, cum ar fi blocarea sau deblocarea Lista arată cum funcționează procesul I/O Acesta este un program minim care nu include niciun cod de verificare a erorilor Înainte de a intra în buclă, programul deschide fișierul de date existent și creează un nou fișier newf Fiecare apel returnează un descriptor de fișier infd sau, respectiv, outfd Următorul parametru din ambele apeluri sunt biții de protecție, care determină ca fișierele să fie citite și, respectiv, scrise Ambele apeluri returnează un descriptor de fișier Dacă apelul deschis sau creat eșuează, este returnat un descriptor de fișier negativ Lista Un fragment de program pentru copierea unui fișier utilizând apeluri de sistem UNIX Acest fragment este scris în C, deoarece Java nu poate afișa apelurile de sistem de nivel scăzut de care avem nevoie /♦ Obțineți un descriptor de fișier */ infd = open("date", ); outfd = creat("newf", ProtectionBits); /♦ Copiere ciclu */ face { count = read(infd, buffer, bytes); if (count > ) write(outfd, buffer, count); } în timp ce (număr > ); /♦ Închide fișierele */ close(infd); close(outfd); Apelul de citire are trei parametri: un descriptor de fișier, un buffer și un număr de octeți Acest apel trebuie să citească numărul necesar de octeți din fișierul specificat în buffer Numărul de octeți citiți este plasat în variabila de numărare Valoarea numărului poate fi mai mică de octeți dacă fișierul este prea scurt Apelul de scriere copiază octeții citiți în fișierul de ieșire Bucla continuă până când fișierul de intrare a fost citit complet Apoi bucla se termină și ambele fișiere sunt închise Descriptorii de fișiere în UNIX sunt numere întregi mici (de obicei până la ) Descriptorii de fișiere , și corespund intrării standard, ieșirii standard și, respectiv, erorii standard De obicei, primul este pentru tastatură, iar al doilea și al treilea pentru afișaj, deși utilizatorul poate redirecționa orice flux I/O standard i "leeeeei w * / rioipv kJi n fișier Multe programe UNIX preiau intrarea de la intrarea standard și scriu ieșirea la ieșirea standard Astfel de programe se numesc filtre Strâns legat de sistemul de fișiere este sistemul de directoare Fiecare utilizator poate avea mai multe directoare, iar fiecare director poate conține fișiere și subdirectoare Un sistem UNIX este de obicei configurat cu un director cd* principal, așa-numitul director rădăcină, care conține subdirectoare bin (pentru programele utilizate frecvent), dev (pentru fișiere speciale de dispozitiv I/O), lib (pentru biblioteci) și usr (pentru directoarele de utilizatori, după cum se arată în Figura ) În exemplul nostru, directorul usr conține subdirectoarele ast și jim Directorul ast include două fișiere (data și foo c) și un subdirector bin care conține fișiere (gamei, game , ) Pentru a accesa un fișier, trebuie să specificați calea acestuia din directorul rădăcină Calea conține o listă a tuturor directoarelor de la directorul rădăcină la fișier, separate printr-o bară oblică (/) De exemplu, calea către fișierul game este /usr/ast/bin/game O cale care începe la directorul rădăcină se numește cale absolută În orice moment, fiecare program care rulează are un director curent Calea poate fi legată de directorul curent În acest caz, nu există nicio bară oblică la începutul căii (pentru a o distinge de o cale absolută) O astfel de cale se numește cale relativă Dacă /usr/ast este directorul curent, atunci fișierul game poate fi accesat folosind calea bin/game Utilizatorul poate crea o legătură către fișierul altcuiva utilizând apelul de sistem de legătură În exemplul nostru, căile /usr/ast/bin/game și /usr/jim/jotto conduc la același fișier Nu este permisă aplicarea de legături către directoare pentru a preveni ciclurile în sistemul de directoare Apelurile deschise și create pot folosi căi absolute sau relative Principalele apeluri pentru manipularea directoarelor UNIX sunt enumerate în Tabelul Apelarea mkdir creează un director nou, iar rmdir elimină un director gol existent Următoarele trei apeluri sunt folosite pentru a citi intrările din director Primul deschide directorul, al doilea citește elemente din acesta, al treilea închide directorul Apelarea chdir schimbă directorul curent Tabelul Apeluri de bază pentru lucrul cu directoare pe un sistem UNIX Apel de sistem Descriere mkdir(nume, mod) Creați un director nou rmdir(nume) Eliminați un director gol Opendir(nume) Deschide un director pentru citire readdir(dirpointer) Citiți următorul element dintr-un director Closedir(dirpointer) Închide un director chdir(dirname) Schimbați directorul curent în directorul numit dirname link(name, name ) Creați un link (nume intrare în directorul care indică directorul namel) unlink(name) Eliminați o legătură (element cale) dintr-un director Directorul rădăcină Orez Un fragment din sistemul de directoare al sistemului de operare UNIX Apelul la link creează o intrare de director care indică un fișier existent De exemplu, elementul /usr/jim/jotto poate fi creat apelând: link("/usr/ast/bin/game ", "/usr/jim/jotto") Același rezultat poate fi obținut printr-un apel echivalent cu o cale relativă care depinde de directorul curent Apelarea deconectarii elimină elementul director Dacă fișierul are o singură legătură, acesta este eliminat Dacă un fișier are două sau mai multe legături, atunci nu este șters Nu contează dacă legătura de la distanță a fost creată inițial sau dacă este o copie Următorul apel face ca fișierul game să fie disponibil numai prin calea /usr/jim/jotto: unlink("/usr/ast/bin/game ") Apelurile de conectare și de deconectare pot fi folosite pentru a "muta" fișiere dintr-un director în altul Fiecare fișier (și, de asemenea, fiecare director, deoarece un director este și un fișier) are asociat un bitmap care spune cui are permisiunea de a accesa fișierul Cardul conține trei câmpuri RWX (Read, Write, eXecute - citire, scriere, execuție) Primul dintre ei controlează permisiunea de a citi, scrie și executa fișiere pentru proprietarul lor, al doilea - pentru alți utilizatori din grupul proprietarului, al treilea - pentru toți ceilalți utilizatori De exemplu, biții RWX RX -X înseamnă că proprietarul fișierului poate citi acest fișier, scrie ceva în el și îl poate executa (evident, fișierul este un program executabil, altfel nu ar exista permisiunea de a-l executa), altele membrii grupului pot să citească și să o facă, iar toți ceilalți doar o fac Astfel, utilizatorii neautorizați vor putea executa acest program, dar nu îl vor putea fura (copia), întrucât le este interzis să îl citească Includerea utilizatorilor în anumite grupuri este efectuată de administratorul de sistem, care este de obicei numit utilizator privilegiat Un utilizator privilegiat are dreptul de a acționa împotriva mecanismului de protecție și de a citi, scrie și executa orice fișier Acum să vedem cum sunt implementate fișierele și directoarele în sistemul UNIX Vezi [Vahalia, ] pentru o descriere mai detaliată Fiecare fișier (și fiecare director, deoarece un director este și un fișier) are asociat un bloc de informații de de octeți numit inode (i-node) Inodul conține informații despre cine deține fișierul, ce este permis să se facă cu fișierul, unde se găsesc datele etc etc Inodele pentru fișiere sunt situate fie secvențial la începutul discului, fie, dacă discul este împărțit în grupuri de cilindri, la începutul grupului Inodele sunt prevăzute cu numere secvențiale Astfel, un sistem UNIX poate localiza un inod pur și simplu calculându-i adresa pe disc O intrare de director constă din două părți: un nume de fișier și un număr de inod Când programul execută următoarea comandă, sistemul caută în directorul curent al fișierului foo c pentru a găsi numărul inodul fișierului: deschide("foo c"j ) După ce a găsit numărul inodul, programul îl poate citi și afla toate informațiile despre fișier Dacă calea fișierului este mai lungă, procedura se repetă de mai multe ori până când întreaga cale a fost parcursă De exemplu, pentru a găsi numărul inodului pentru calea /usr/ast/data, sistemul caută mai întâi directorul rădăcină pentru elementul usr Odată ce găsește inodul usr, poate citi fișierul (un director pe un sistem UNIX este, de asemenea, un fișier) În acest fișier, ea va găsi elementul ast și va plăti Obține numărul inodul pentru /usr/ast Citind informațiile despre locație din directorul /usr/ast, sistemul va putea localiza intrarea pentru date și, prin urmare, numărul i-nodului pentru /usr/ast/data Găsind numărul de index) al descriptorului pentru acest fișier, sistemul poate obține orice informații despre acest fișier Formatul, conținutul și plasarea inodurilor variază ușor de la sistem la sistem (mai ales când vine vorba de sistemele în rețea), dar următoarele elemente sunt prezente în aproape fiecare inod: - tip de fișier, trei câmpuri RWX (total biți) și alți câțiva biți; + numărul de link-uri către fișier (număr de intrări în director); + ID proprietar; - grupul proprietarului; + lungimea fișierului în octeți; - treisprezece adrese de disc; - ora la care fișierul a fost citit ultima dată; + ora la care a fost scris ultima dată fișierul; este ora la care inodul a fost schimbat ultima dată Tipurile de fișiere posibile sunt fișiere obișnuite, directoare, două tipuri de fișiere speciale pentru dispozitive de I/O bloc și brute Am discutat deja despre numărul de link-uri și ID-ul proprietarului Lungimea fișierului este exprimată ca un număr întreg de de biți reprezentând octetul înalt al fișierului Este complet posibil să creați un fișier, să mutați indicatorul în poziția și să scrieți octet Rezultatul este un fișier cu o lungime de În acest caz, fișierul nu necesită salvarea tuturor octeților "inexistenți" Primele adrese de pe disc indică blocuri de date Dacă dimensiunea blocului este de de octeți, atunci puteți lucra cu fișiere de până la de octeți Adresa indică un bloc indirect care conține adrese suplimentare Cu un bloc de de octeți și adrese de de biți, conține de adrese Acest lucru vă permite să lucrați cu fișiere de până la + x -= octeți Pentru fișiere și mai mari, există adresa , care indică de blocuri indirecte Aici, dimensiunile fișierelor permise sunt + x x = octeți Dacă această schemă de blocuri cu dublă indirectă este prea mică, se folosește adresa Ea indică blocul cu triplă indirectă, care conține adresele a de blocuri cu dublu indirectă Folosind adresarea directă, indirectă, dublă indirectă și triplă indirectă, pot fi accesate blocuri Aceasta înseamnă că dimensiunea maximă posibilă a fișierului este de de octeți Dacă se folosesc adrese de de biți în loc de adrese de de biți, iar dimensiunea blocului este de KB, fișierele pot fi foarte, foarte mari Blocurile de disc libere sunt stocate ca o listă legată Dacă este necesar un nou bloc, acesta este luat din listă Rezultatul este că blocurile fiecărui fișier sunt împrăștiate aleatoriu pe disc Pentru a îmbunătăți viteza I/O pe disc, atunci când un fișier este deschis, inodul acestuia este copiat în tabelul de memorie principal și stocat acolo atâta timp cât fișierul rămâne deschis În plus, un set de blocuri este stocat în memorie, care au fost abordate recent Deoarece majoritatea fișierelor sunt citite secvențial, un acces la fișier necesită adesea același bloc ca și accesul anterior Pentru a crește viteza, sistemul citește următorul bloc într-un fișier chiar înainte de a fi accesat Toate aceste momente sunt ascunse utilizatorului Când utilizatorul emite un apel de citire, programul se întrerupe până când datele necesare apar în buffer Știind toate acestea, puteți înțelege cum are loc procesul I/O Apelarea eagle face ca sistemul să caute directoare într-o anumită cale Dacă căutarea are succes, inodul este citit în tabelul intern Apelurile de citire și scriere necesită ca sistemul să calculeze numărul blocului din poziția curentă a fișierului Adresele primelor blocuri de disc sunt întotdeauna în memoria principală (inode); pentru blocurile rămase, trebuie mai întâi citite unul sau mai multe blocuri de adresare indirectă Apelul către Iseek schimbă pur și simplu poziția curentă a indicatorului și nu face I/O De asemenea, este ușor de înțeles implementarea apelurilor de conectare și deconectare Primul argument pentru apelul de legătură este numărul inodului La acel număr, creează o intrare de director pentru al doilea argument și plasează numărul i-node al primului fișier în acea intrare de director În cele din urmă, crește numărul de legături din inod cu unul Apelarea dezlegarii elimină intrarea în director și reduce numărul de legături din inod Dacă acest număr devine , fișierul este șters și toate blocurile sale sunt plasate pe lista liberă I/O virtuală în Windows Windows XP acceptă mai multe sisteme de fișiere, dintre care cele mai importante sunt NTFS (NT File System) și FAT (File Allocation Table) Primul a fost conceput special pentru Windows XP Al doilea este un sistem de fișiere moștenit pentru MS-DOS, care este folosit și de Windows / (deși cu nume de fișiere lungi) Deoarece sistemul FAT este învechit și se găsește acum doar în unitățile USB și cardurile de memorie, vom lua în considerare doar sistemul de fișiere NTFS Pe NTFS, un nume de fișier poate avea până la de caractere Numele fișierelor sunt scrise în Unicode, astfel încât persoanele din diferite țări care nu folosesc alfabetul latin să poată scrie numele fișierelor în propria lor limbă Mai mult, Unicode este folosit intern de Windows ; în toate versiunile sistemului de operare, începând cu Windows , textele meniurilor, mesajele de eroare și alte elemente de interfață sunt stocate în fișiere de configurare alocate fiecărei limbi, în timp ce fișierele binare sunt aceleași pentru toate variantele mediului de limbă Pe NTFS, literele mari și mici din numele fișierelor sunt considerate diferite (adică "foo" este diferit de "FOO") Din păcate, API-ul Win nu face distincție între literele majuscule și mici în numele fișierelor și directoarelor, astfel încât acest avantaj este pierdut pentru programele care utilizează subsistemul Win Ca și în UNIX, un fișier este o secvență liniară de octeți cu o lungime maximă de - Există și pointerii, dar sunt de de biți în loc de , astfel încât lungimea maximă a fișierului poate fi menținută Apelurile de funcții din API-ul Win pentru manipularea directoarelor și fișierelor sunt, în general, similare cu apelurile de funcții UNIX, dar majoritatea exemple de sisteme de operare au mai multi parametroni si un alt model de protectie La deschiderea unui fișier, este returnat un handle, care este apoi folosit pentru a citi și scrie fișierul Spre deosebire de UNIX, descriptorii nu sunt numere întregi mici, deoarece sunt utilizați pentru a identifica obiectele nucleului, care pot fi de milioane Principalele funcții API Win pentru gestionarea fișierelor sunt enumerate în Tabelul Tabelul Funcții de bază Win API pentru fișiere I/O Funcție API UNIX Analog Descriere CreateFile open Creați un fișier sau deschideți un fișier existent; funcția returnează mânerul DeleteFile deconectare Șterge un fișier existent CloseHandle close Închide un fișier ReadFile read Citirea datelor dintr-un fișier WriteFile write Scrie date într-un fișier SetFilePointer Iseek Setați un indicator de fișier la o locație dată dintr-un fișier Setați atributele fișierului stat Returnează proprietățile fișierului LockFile Fcntl Blocați o regiune a unui fișier pentru a oferi excluderea reciprocă a accesului UnlockFile Fcntl Deblochează o zonă blocată anterior a unui fișier Să aruncăm o privire asupra acestor provocări Apelul CreateFile este folosit pentru a crea un fișier nou și le returnează un handle Această funcție este folosită și pentru a deschide un fișier deja existent, deoarece nu există nicio funcție deschisă în API Nu vom enumera parametrii funcțiilor API, deoarece există o mulțime de ei De exemplu, funcția CreateFile are șapte parametri: + pointer către numele fișierului creat sau deschis; - steaguri care spun ce acțiuni pot fi efectuate cu fișierul (citire, scriere sau ambele); + steaguri care indică dacă mai multe procese pot deschide un fișier în același timp; + un pointer către un descriptor de securitate care indică cine are acces la fișier; + steaguri care indică ce trebuie făcut atunci când fișierul există sau nu există; + steaguri asociate cu atribute de arhivare, compresie etc ; + descriptor de fișier ale cărui atribute urmează să fie clonate pentru noul fișier Următoarele șase funcții API sunt similare cu funcțiile UNIX corespunzătoare Cu toate acestea, rețineți că I/O în Windows este asincron, deși un proces poate aștepta finalizarea operației Ultimele două funcții vă permit să blocați sau să deblocați o regiune a unui fișier pentru a vă asigura că procesele nu pot accesa aceeași regiune Folosind aceste funcții API, puteți scrie o procedură pentru copierea unui fișier, similar cu procedura din lista O astfel de procedură (fără codul de verificare a erorilor) este prezentată în Lista În practică, nu este nevoie să scrieți un program pentru a copia un fișier, deoarece există o funcție CopyFile care face aproximativ același lucru și este implementată ca procedură de bibliotecă Lista Un fragment dintr-un program pentru copierea unui fișier folosind funcția API Windows Acest fragment este scris în C, deoarece Java nu poate afișa apelurile de sistem de nivel scăzut de care avem nevoie /* Deschide fișierele pentru intrare și ieșire */ inhandle = CreateFileCdata", GENERIC READ, , NULL, OPEN EXISTING, , NULL); outhandle = CreateFileC'newF, GENERIC WRITE, Q, NULL, CREATE ALWAYS, FILE ATTRIBUTE NORMAL, NULL); /* Copiați fișierul */ face { s = ReadFile(inhandle, buffer, BUF SIZE, &count, NULL); if (s > && count > ) WriteFile(outhandle, buffer, count, &ocnt, NULL); } în timp ce (s > && numără > ); /* Închiderea fișierelor ♦/ CloseHandle(inhandle); CloseHandle (mâner exterior); Windows acceptă un sistem de fișiere ierarhic care seamănă cu sistemul de fișiere UNIX Cu toate acestea, separatorul de aici nu este o bară oblică înainte, ci o bară oblică inversă (împrumutat de la MS-DOS) Și aici există conceptul de director curent, iar căile pot fi absolute și relative Cu toate acestea, există o diferență semnificativă între Windows XP și UNIX UNIX vă permite să montați sisteme de fișiere de pe diferite discuri și mașini într-un singur arbore, ascunzând astfel structura discului de programe Windows XP nu are această capacitate, așa că numele absolute de fișiere trebuie să înceapă cu o literă de unitate (de exemplu, C:\windows\system\foo dll) În același timp, începând cu Windows , a fost implementată capacitatea de a monta sisteme de fișiere în stil UNIX Principalele funcții pentru lucrul cu directoare sunt listate în Tabel (de asemenea, împreună cu echivalentele UNIX) Probabil că sensul acestor funcții se explică de la sine Tabelul Funcțiile de bază ale Win API pentru lucrul cu directoare Funcția API Funcția UNIX Semnificație CreateDirectiry mkdir Creați un director nou RemoveDirectory rmdir Eliminați un director gol FindFirstFile opendir Începeți să citiți intrările din director FindNextFile readdir Citiți următoarea intrare dintr-un director MoveFile Mută un fișier dintr-un director în altul SctCurrentDirectory chdir Schimba directorul curent Windows XP are un mecanism de securitate mai sofisticat decât UNIX Deși LPI conține sute de funcții legate de securitate, următoarea descriere este cel puțin o idee generală Când un utilizator se conectează, pro-cp-ul său primește un token de acces de la sistemul de operare Indicatorul de acces conține un identificator de securitate (Security D, SID), o listă de grupuri din care aparține utilizatorul, privilegii disponibile și alte informații Tokenul de acces concentrează toate informațiile de securitate într-un singur loc ușor accesibil Toate procesele create de acest proces moștenesc același simbol de acces Un descriptor de securitate este unul dintre parametrii dați oricărui obiect la creare Descriptorul de securitate conține o listă de elemente numită Listă de control al accesului (ACL) Fiecare element permite sau interzice un anumit set de operațiuni cu obiectul oricărui utilizator sau grup De exemplu, un fișier poate conține un descriptor de securitate care specifică că Ivanov nu are deloc acces la fișier, Petrov poate citi fișierul, Sidorov poate citi și scrie fișierul și toți membrii grupului XYZ pot citi doar dimensiunea de fișierul Dacă un proces încearcă să efectueze orice operațiune asupra unui obiect folosind mânerul primit la deschiderea obiectului, managerul de securitate obține jetonul de acces al procesului și compară nivelul de integritate al descriptorului de securitate al obiectului cu nivelul de integritate al jetonului Un proces nu poate obține un token cu permisiuni de scriere pentru un obiect cu un nivel de integritate mai ridicat Nivelurile de integritate sunt utilizate în principal pentru a limita capacitatea unui sistem de a fi modificat prin codul încărcat într-un browser web După verificarea nivelului de integritate, managerul de securitate începe să parcurgă elementele listei de control acces în ordine De îndată ce găsește un element care se potrivește utilizatorului dorit sau unuia dintre grupuri, informațiile găsite despre permiterea sau refuzarea accesului sunt considerate ca date Din acest motiv, elementele care interzic accesul sunt de obicei plasate în lista de control al accesului înaintea elementelor care permit accesul (pentru a împiedica un utilizator care nu are acces să obțină acces ilegal, fiind membru al unuia dintre grupurile cărora li se permite accesul) Descriptorul de securitate conține, de asemenea, informații utilizate pentru auditarea acceselor la obiect Acum să aruncăm o privire amplă asupra implementării fișierelor și directoarelor în Windows Fiecare disc este împărțit în volume, la fel ca partițiile de disc UNIX Fiecare volum conține fișiere, hărți de biți de director și alte structuri de date Fiecare volum este organizat ca o secvență liniară de clustere Mărimea clusterului este fixă pentru fiecare volum Poate fi de la octeți la KB, în funcție de dimensiunea volumului Clusterul este accesat prin offset de la începutul volumului Aceasta utilizează numere pe de biți Structura principală de date din fiecare volum este Master File Table (MFT), care conține intrări pentru fiecare fișier și director din volum Aceste intrări sunt similare cu intrările inode (i-node) în UNIX Tabelul de fișiere master este un fișier și poate fi plasat oriunde într-un volum Aceasta rezolvă o problemă care apare atunci când se găsesc blocuri de disc proaste printre inoduri Tabelul principal al fișierelor este prezentat în fig Opa începe cu un antet care oferă informații despre volum (indicatori către directorul rădăcină, fișier descărcări, o listă de persoane care folosesc acces gratuit etc ) Apoi, există o intrare per fișier sau director ( KB dacă dimensiunea clusterului este de KB sau mai mult) Fiecare element conține toate metadatele (informații administrative) despre un fișier sau director Sunt permise mai multe formate, dintre care unul este prezentat în Fig Master File Table (MFT) Orez Tabelul Master File în Windows Câmpul de informații standard conține informații despre marcajele de timp cerute de standardele POSIX, numărul de legături, biți de doar citire, biți de arhivare etc Acest câmp are o lungime fixă și este obligatoriu Numele fișierului poate avea orice lungime, până la de caractere Unicode Pentru a face astfel de fișiere accesibile pentru programele moștenite pe biți, li se poate atribui un alias MS-DOS de până la caractere, urmat de un punct și o extensie de trei caractere Dacă numele propriu-zis al fișierului urmează convenția de denumire MS-DOS ( + ), numele de mijloc în stil MS-DOS nu este utilizat Urmează domeniul de securitate În toate versiunile anterioare Windows NT , câmpul de securitate conținea un descriptor de securitate Începând cu Windows , toate informațiile de securitate sunt plasate într-un singur fișier, iar câmpul de securitate indică pur și simplu partea corespunzătoare a acelui fișier Pentru fișierele mici, datele reale ale acelor fișiere pot fi conținute într-o intrare de tabel de fișiere master, făcându-le mai ușor de apelat fără a necesita acces la disc Acest concept se numește fișierul imediat [Mullender și Tanenbaum, ] Pentru fișierele mari, acest câmp conține pointeri către clustere de date sau (mai frecvent) către blocuri de clustere consecutive, astfel încât numărul și lungimea clusterului pot reprezenta o cantitate arbitrară de date Dacă elementul tabelului de fișiere principal nu este suficient de mare pentru a stoca informațiile necesare, unul sau mai multe elemente suplimentare (înregistrări) îi pot fi asociate Dimensiunea maximă a fișierului este de de octeți Să explicăm ce este un fișier de această dimensiune Să ne imaginăm că fișierul este scris în sistem binar și fiecare sau ocupă mm de spațiu Valoarea de ' mm corespunde valorii de ani lumină Acest lucru ar fi suficient pentru a trece dincolo de sistemul solar, a ajunge la Alpha Centauri și a reveni înapoi Sistemul de fișiere NTb are multe alte caracteristici interesante, cum ar fi compresia datelor și toleranța la erori ale tranzacțiilor atomice Informații suplimentare pot fi găsite în (Russinovici și Solomon, Exemple de control al procesului Sistemele Windows și UNIX vă permit să împărțiți o lucrare în mai multe procese care rulează (pseudo-) în paralel și comunică între ele, ca în exemplul producător/consumator despre care am discutat mai devreme În această subsecțiune, vom vorbi despre modul în care procesele sunt gestionate în ambele sisteme Ambele sisteme suportă paralelismul într-un singur proces folosind fire de execuție de program și vom vorbi și despre asta Managementul proceselor în UNIX În orice moment, un proces UNIX poate crea un subproces care este copia lui exact Pentru a face acest lucru, este executat apelul de sistem for k Procesul original se numește părinte, iar cel nou se numește copil Cele două procese rezultate din apelul for to sunt exact identice și chiar împărtășesc aceiași descriptori de fișier Cu toate acestea, fiecare dintre aceste două procese își desfășoară activitatea independent de celălalt Adesea, procesul copil manipulează descriptori de fișiere într-un fel și apoi execută apelul de sistem exec, care înlocuiește programul și datele cu programul și datele din fișierul executabil specificat ca parametru de apel exec De exemplu, dacă utilizatorul introduce comanda xyz, atunci interpretul de comandă (shell) efectuează o operație de furcăre, generând astfel un proces copil Și acest proces face un apel către exec pentru a rula programul xyz Aceste două procese rulează în paralel (cu sau fără apelul de sistem exec), dar uneori procesul părinte trebuie, dintr-un motiv oarecare, să aștepte ca procesul copil să-și finalizeze activitatea și abia apoi să continue să efectueze anumite acțiuni În acest caz, procesul părinte emite un apel de sistem wait sau waitpid, determinând suspendarea temporară și așteptarea până când procesul secundar emite apelul de sistem de ieșire Procesele ar putea face apelul de furcă ori de câte ori doresc, rezultând un întreg arbore de procese Uită-te la fig Aici, procesul A s-a bifurcat de două ori și a generat două procese noi, B și C Apoi, procesul B s-a bifurcat de două ori și procesul C o dată Astfel, s-a obținut un arbore de șase procese Procesul sursă Orez Arborele de proces în sistemul UNIX Procesele generate de procesul A Procese generate de procesele copil ale procesului A Procesele din UNIX pot comunica între ele printr-o structură specială de informații numită conductă O conductă este un fel de buffer în care un proces scrie un flux de date, iar un alt proces preia datele de acolo Octeții sunt întotdeauna returnați de la canal în ordinea în care au fost scrisi Accesul aleatoriu nu este posibil Canalele nu păstrează granițele dintre fragmentele de date, așa că dacă un proces a scris fragmente de de octeți pe canal, iar un alt proces citește date de de octeți, atunci al doilea proces va primi toate datele simultan fără a indica faptul că au fost scrise în câțiva pași System V și Linux folosesc o metodă diferită pentru comunicarea proceselor Aici sunt folosite așa-numitele cozi de mesaje Un proces poate crea o nouă coadă de mesaje sau poate deschide una existentă apelând msgget Mesajele sunt trimise folosind msgsnd și primite folosind msgrecv Mesajele trimise în acest fel sunt diferite de datele introduse într-un canal În primul rând, limitele mesajelor sunt păstrate, în timp ce canalul pur și simplu transmite un flux de octeți În al doilea rând, mesajele sunt prioritizate, așa că mesajele urgente vin înaintea tuturor celorlalte În al treilea rând, mesajele sunt tastate, iar apelarea msgrecv vă permite să determinați tipul lor, dacă este necesar Două sau mai multe procese pot împărtăși o zonă comună a spațiilor lor de adrese UNIX gestionează această memorie partajată prin maparea acelorași pagini la spațiul de adrese virtuale al tuturor proceselor partajate Ca rezultat, o scriere în zona partajată făcută de unul dintre procese va fi vizibilă pentru toate celelalte procese Acest mecanism oferă un debit foarte mare atunci când procesele interacționează Apelurile de sistem implicate în lucrul cu memoria partajată se numesc shmat și shmop O altă caracteristică a System V și Linux este prezența semaforelor Am descris deja principiile muncii lor în exemplul cu producătorul și consumatorul O altă caracteristică a sistemelor UNIX compatibile cu POSIX este suportul pentru mai multe fire de control într-un singur proces Aceste fluxuri de control sunt de obicei denumite pur și simplu fluxuri de program Sunt ca procesele care partajează un spațiu de adrese comun și toate obiectele asociate cu acel spațiu de adrese (descriptori de fișiere, variabile de mediu etc ) Cu toate acestea, fiecare fir de execuție are propriul său numărător de programe, propriile registre și propriul său stack Dacă unul dintre firele de execuție a programului este suspendat (de exemplu, până la finalizarea unui proces I/O), alte fire de execuție a programului din același proces pot continua să ruleze Două fire de execuție de program din același proces care acționează ca un proces producător și un proces consumator seamănă cu două procese cu un singur thread care împart un segment de memorie care conține un buffer, deși nu sunt identice În al doilea caz, fiecare proces are propriii descriptori de fișier etc , în timp ce în primul caz, toate aceste elemente sunt comune În exemplul producător-consumator, am văzut cum funcționează firele în Java Uneori, sistemul de rulare Java folosește un fir de execuție al sistemului de operare pentru a suporta fiecare dintre fire, dar acest lucru nu este necesar Când ai putea avea nevoie de fire de execuție de program? De exemplu, un server web poate stoca o memorie cache a paginilor web utilizate frecvent în memoria principală Dacă pagina dorită se află în cache, atunci aceasta este emisă imediat Dacă nu, atunci este apelat de pe disc Din păcate, acest lucru durează destul de mult (de obicei de milisecunde), timp în care procesul este blocat și nu poate servi cereri noi, chiar dacă paginile web solicitate sunt în cache Pentru a rezolva problema, puteți crea mai multe fire în același proces care partajează un cache comun al paginii web Dacă unul dintre firele de execuție a programului este blocat, cererile noi pot fi procesate de alte fire de execuție a programului Desigur, puteți preveni blocarea procesului fără a utiliza fire Acest lucru va necesita mai multe procese, dar apoi va trebui să duplicați memoria cache, iar aceasta este o utilizare ineficientă a memoriei Standardul de sistem UNIX pentru firele de execuție se numește pthreads și este definit în POSIX (P C) Descrie apeluri pentru gestionarea și sincronizarea firelor de execuție a programului Standardul nu spune dacă firele de execuție ar trebui gestionate de kernel sau ar trebui să funcționeze numai în spațiul utilizatorului Cele mai comune funcții pentru lucrul cu firele de execuție ale programului sunt prezentate în tabel Tabelul Funcții de bază pentru lucrul cu firele de execuție definite în standardul POSIX Descrierea funcției pthread crcate Creați un nou thread de program în spațiul de adrese al procedurii de apelare pthreadexit Închide un fir de execuție a unui program pthread join Așteptați ca firul de program să se termine pthread mutcx init Creați un nou mutex pthread mutex dcstroy Eliminați mutex pthread mutex lock pthread mutex deblocare pthread cond init Creați variabila de condiție pthread cond destroy Eliminați variabila de condiție pthread cond wait Așteptați o variabilă de condiție pthread cond signal Deblocați unul dintre firele de execuție care așteaptă o variabilă de condiție Să aruncăm o privire asupra acestor provocări Primul apel, pthread create, creează un nou thread de program După executarea acestei proceduri, în spațiul de adrese mai apare un fir de program Firul programului care și-a încheiat activitatea apelează funcția pthread exit Dacă un fir trebuie să aștepte ca un alt fir să se termine, apelează funcția pthread join Dacă celălalt thread și-a terminat deja munca, apelul pthread join se încheie imediat În caz contrar, este blocat Firele de execuție ale programului pot fi sincronizate folosind obiecte speciale numite mutex De obicei, un mutex controlează o anumită resursă (de exemplu, un buffer partajat între două fire de execuție a programului) Pentru ca un singur fir să acceseze o resursă partajată la un moment dat, firele de execuție trebuie să blocheze mutex-ul înainte de a utiliza resursa și să o deblocheze după ce au terminat cu ea În acest fel, condițiile de cursă pot fi evitate, deoarece toate firele de execuție se supun acestui protocol Mutexurile sunt similare cu semaforele binare (adică semaforele care pot lua doar două valori: sau ) Mutexurile sunt create și distruse de apelurile către pthread mutex init și, respectiv, pthread mutex destroy Un mutex poate fi în una din două stări: blocat sau deblocat Dacă un fir de execuție trebuie să blocheze un mutex deblocat, efectuează un apel către pthread mutex lock și apoi continuă Totuși, dacă un fir de execuție încearcă să blocheze un mutex deja blocat, firul de execuție este suspendat Când firul de execuție care utilizează în prezent resursa partajată a terminat de utilizat acea resursă, trebuie să deblocheze mutex-ul corespunzător apelând pthread mutex unlock Mutexurile sunt concepute pentru blocarea pe termen scurt (de exemplu, protejarea unei variabile partajate), dar nu pentru sincronizare pe termen lung (de exemplu, așteptarea ca o unitate de bandă să devină liberă) Pentru sincronizarea pe termen lung, există variabile de condiție Aceste variabile sunt create și distruse de apelurile către pthread cond init și, respectiv, pthread cond destroy O variabilă de condiție este asociată cu două fire de program: așteptare și semnalizare Dacă, de exemplu, un fir detectează că unitatea de bandă de care are nevoie este ocupată în prezent, acel fir emite un apel către pthread cond wait pe variabila condiție Când un fir care folosește o unitate de bandă își încheie lucrul cu acest dispozitiv (și acest lucru poate dura câteva ore), acesta semnalează acest lucru apelând pthread cond signal Acest lucru permite deblocarea exact unui fir - cel care așteaptă această variabilă de condiție Dacă nu există fire care să aștepte această variabilă, semnalul dispare Variabilele de condiție nu au un numărător, așa cum au semaforele Rețineți că alte operațiuni pot fi efectuate pe fire, mutex și variabile de condiție Managementul proceselor în Windows Windows acceptă comunicarea și sincronizarea între procese Fiecare proces conține cel puțin un fir de program Procesele și firele de execuție oferă în mod colectiv instrumente de control al concurenței pentru sistemele cu un singur procesor și multiprocesor Procesele noi sunt create folosind funcția CreateProcess API Această funcție are parametri, fiecare având multe valori posibile Evident, un astfel de sistem este mult mai complicat decât schema UNIX corespunzătoare, unde funcția fork nu are deloc argumente, iar exec are doar trei dintre ele: pointeri către numele fișierului executabil, către o serie de opțiuni ale liniei de comandă, și la o linie de descriere a configurației Cele argumente ale funcției CreateProcess sunt enumerate mai jos + pointer către numele fișierului executabil; + linia de comandă în sine (fără parsare); + pointer către descriptorul de securitate al acestui proces; + pointer către descriptorul de securitate al firului original al programului; + un pic care spune dacă noul proces moștenește mânerele de proces ale părintelui; + diverse steaguri (de ex erori, prioritate, depanare, console); + pointer către liniile de descriere a configurației; + pointer către numele directorului de lucru al noului proces; + un pointer către o structură care descrie fereastra sursă de pe ecran; + pointer către o structură care returnează valori la procedura de apelare În Windows , nu există o ierarhie a proceselor părinte-fiu Toate procesele sunt create egale Cu toate acestea, deoarece unul dintre cei parametri reveniți la procesul inițial este noul handle de proces (care permite controlul noului proces), există o ierarhie internă în sensul că alte handle de proces sunt disponibile pentru anumite procese Aceste mânere nu pot fi pur și simplu trecute unui alt proces, dar un proces poate face un anumit mâner disponibil unui alt proces și apoi să îi transmită acel mâner, astfel încât ierarhia procesului intern nu este permanentă Fiecare proces din Windows este creat cu un fir de program, ulterior acest proces poate crea mai multe astfel de fire Crearea unui fir de execuție de program este mai ușoară decât crearea unui proces, deoarece apelul CreateThread are doar parametri în loc de : descriptor de securitate, dimensiunea stivei, adresa de pornire, parametrul utilizatorului, starea inițială a firului (gata sau blocată) și ID-ul firului Deoarece nucleul este responsabil pentru crearea firelor de execuție, are informații despre toate firele de execuție a programului (cu alte cuvinte, implementarea lor nu se limitează la spațiul utilizatorului, ca în alte sisteme) În timpul procesului de planificare, nucleul apelează nu numai următorul proces de rulat, ci și firul de execuție al procesului Aceasta înseamnă că nucleul știe întotdeauna ce fire de execuție de program sunt blocate și care nu Întrucât firele de execuție sunt obiecte kernel, au descriptori și mânere de securitate Deoarece descriptorilor li se permite să fie transmise unui alt proces, este posibil ca un proces să gestioneze fluxurile de program ale altui proces Această caracteristică, de exemplu, este utilă pentru depanatori Procesele pot comunica între ele în mai multe moduri: prin conducte, conducte numite, sloturi de e-mail, socketuri, apeluri de procedură la distanță, fișiere partajate Canalele sunt împărțite în două tipuri: canale de octeți și canale de mesaje Tipul de canal este selectat în momentul creării Byte pipes funcționează la fel ca în UNIX Canalele de mesaje păstrează limitele mesajelor, astfel încât patru înregistrări de de octeți sunt citite de pe canal ca patru mesaje de de octeți (mai degrabă decât un mesaj de de octeți, așa cum este cazul canalelor de octeți) În plus, există țevi numite, care vin și în două soiuri Conductele numite* pot fi utilizate în rețea, dar conductele normale nu Prizele sunt similare cu țevile, dar de obicei conectează procese pe mașini diferite, deși pot fi folosite și pentru a conecta procese pe aceeași mașină nr În general, o conexiune priză nu este cu mult mai bună decât o conexiune obișnuită sau numită Apelurile de procedură de la distanță permit procesului A să instruiască procesul B să efectueze un apel de procedură în spațiul de adrese B în numele lui A și să returneze rezultatul procesului A Există diverse restricții privind parametrii apelului De exemplu, trecerea unui pointer către un alt proces nu are niciun sens În schimb, obiectul (obiectele) la care se referă indicatorul trebuie să fie încadrat în casetă și să fie transmis unui alt proces În cele din urmă, procesele pot partaja memoria partajată prin maparea simultană a aceluiași fișier în memorie Apoi, toate înregistrările generate de un proces vor apărea în spațiul de adrese al altor procese Folosind acest mecanism, putem implementa cu ușurință tamponul partajat pe care l-am descris în exemplu cu procesul de producător și procesul de consum Windows oferă multe mecanisme de sincronizare (semafore, mutexuri, secțiuni critice, evenimente) Toate aceste mecanisme nu funcționează cu procese, ci cu fire de execuție de program, așa că atunci când un fir de execuție se blochează pe un semafor, nu afectează în niciun fel alte fire de execuție ale acestui proces - ele continuă să funcționeze Un semafor este creat folosind funcția CreateSemaphore API, care îl poate seta la o anumită valoare și poate determina valoarea maximă a acestuia Semaforele sunt obiecte kernel, deci au descriptori de securitate și mânere Un mâner de semafor poate fi duplicat folosind funcția DuplicateHandle și transmis unui alt proces, astfel încât un singur semafor poate sincroniza mai multe procese Sunt acceptate și funcțiile sus și jos, deși au denumiri diferite: ReleaseSemaphore (pentru sus) și WaitForSingleObject (pentru jos) Puteți defini o limită de timp inactiv pentru funcția WaitForSingleObject, astfel încât firul apelant să poată fi deblocat în cele din urmă chiar dacă semaforul rămâne la (cu toate acestea, cronometrele contribuie la condițiile de cursă) Mutexurile sunt, de asemenea, obiecte nucleu, dar sunt mai simple decât semaforele deoarece nu au contor Sunt, de fapt, obiecte cu funcții API pentru blocare (WaitForSingleObject) și deblocare (ReleaseMutex) Mânerele Mutex, precum mânerele semaforului, pot fi duplicate și transmise altor procese, astfel încât firele din procese diferite să poată accesa același mutex Al treilea mecanism de sincronizare se bazează pe secțiuni critice Secțiunile critice sunt similare cu mutexurile, cu excepția localității lor în ceea ce privește spațiul de adresă al firului de execuție original al programului Deoarece secțiunile critice nu sunt obiecte kernel, ele nu au mânere sau descriptori de securitate, deci nu pot fi transmise altor procese Blocarea și deblocarea se realizează folosind funcțiile EnterCriticalSection și, respectiv, LeaveCriticalSection Deoarece aceste funcții API rulează în întregime în spațiul utilizatorului, sunt mult mai rapide decât mutexurile Ultimul mecanism este legat de utilizarea obiectelor kernel, care se numesc evenimente Dacă un fir trebuie să aștepte un eveniment, apelează WaitForSingleObject Cu funcția SetEvent, puteți debloca un fir în așteptare și cu funcția PulseEvent este în așteptare Există mai multe tipuri de evenimente care* au mai mulți parametri Evenimentele, mutexurile și semaforele pot fi denumite în mod specific și stocate în sistemul de fișiere ca conducte numite Puteți sincroniza funcționarea a două sau mai multe procese prin deschiderea aceluiași eveniment, mutex sau semafor În acest caz, nu trebuie să creeze un obiect și apoi să dubleze mânerele, deși această abordare este, de asemenea, posibilă Rezumatul capitolului Sistemul de operare poate fi gândit ca un interpret pentru unele caracteristici arhitecturale care nu sunt prezente la nivelul arhitecturii de comandă Principalele dintre acestea sunt memoria virtuală, instrucțiunile I/O virtuale și suportul pentru concurență Memoria virtuală este necesară pentru a permite programelor să utilizeze mai mult spațiu de adrese decât are mașina de fapt sau pentru a oferi un mecanism convenabil pentru protejarea și partajarea memoriei Memoria virtuală poate fi implementată prin paginare "pură", segmentare "pură" sau ambele Cu memoria de paginare, spațiul de adrese este împărțit în pagini virtuale de dimensiuni egale Unele dintre ele sunt mapate pe cadre de pagină fizice, altele nu Referința la pagina mapată este tradusă de managerul de memorie în adresa fizică corectă Accesarea unei pagini nemapate cauzează o eroare de ieşire a paginii Atât Core I , cât și OMAP au manageri de memorie sofisticați care acceptă memoria virtuală și paginarea Cea mai importantă abstractizare I/O la acest nivel este fișierul Un fișier constă dintr-o secvență de octeți, sau înregistrări logice, care* pot fi citite și scrise fără a ști cum funcționează discurile și alte* dispozitive I/O Fișierele pot fi accesate secvenţial, arbitrar după numărul de înregistrare și arbitrar prin cheie Directoarele sunt folosite pentru a grupa fișiere Fișierele pot fi stocate în sectoare consecutive sau pot fi împrăștiate pe tot discul În acest din urmă caz, sunt necesare structuri speciale de date pentru a găsi toate blocurile din fișier Puteți utiliza o listă de goluri (zone neutilizate) sau un bitmap (bitmap) pentru a urmări spațiul liber de pe un disc Paralelismul este adesea susținut și implementat în sistemele uniprocesor prin partajarea timpului, care este modul în care sunt modelate procesoarele multiple Interacțiunea necontrolată a diferitelor procese poate duce la o condiție de rasă Pentru a le evita, sunt introduse mijloace speciale de sincronizare Cele mai simple dintre acestea sunt semaforele Cu semafoare, problema producător-consumator se rezolvă simplu și elegant UNIX și Windows sunt sisteme de operare complexe Ambele sisteme acceptă paginarea și maparea memoriei fișierelor În plus, acceptă sisteme de fișiere ierarhice, în care fișierele sunt alcătuite dintr-o secvență de octeți În sfârșit, susțin ambele sisteme! procese și fire de execuție a programelor și oferă mecanisme pentru sincronizarea acestora întrebări și sarcini De ce sistemul de operare interpretează doar unele comenzi de nivel , în timp ce firmware-ul interpretează toate comenzile de la nivelul arhitecturii instrucțiunilor? Aparatul are un spațiu de adrese virtuale de de biți adresat de octeți Dimensiunea paginii este de KB Câte pagini de spațiu de adrese virtuale există? Ar trebui ca dimensiunea paginii să fie o putere de doi? Este teoretic posibil să se implementeze o pagină de, să zicem, de octeți? Dacă da, cât de mult este justificată această dimensiune? Memoria virtuală conține pagini virtuale și cadre de pagină fizice Dimensiunea paginii este de de cuvinte Tabelul de pagini corespunzător este prezentat în Tabel Tabelul Tabel de pagini pentru job Pagina virtuală Cadru de pagină unsprezece Nu se află în memoria principală Nu se află în memoria principală Nu în memoria principală Nu în memoria principală ) Creați o listă de adrese virtuale care vor cauza o eroare a paginii atunci când sunt accesate ) Care sunt adresele fizice pentru adresele virtuale , , , , , și ? Computerul are pagini de spațiu de adrese virtuale și doar cadre de pagină Inițial, memoria este goală Programul accesează paginile virtuale în următoarea ordine: , , , , , , , , ) Care dintre apelurile algoritmului LRU va cauza o eroare a paginii? ) Care dintre accesările FIFO va cauza o eroare a paginii? În subsecțiunea "Politica de înlocuire a paginii" a secțiunii "Memorie virtuală", a fost propus un algoritm de înlocuire a paginii FIFO Dezvoltați un algoritm mai eficient Sugestie: Puteți actualiza contorul în pagina nou încărcată, lăsând toate celelalte neschimbate În sistemele de paginare pe care le discutăm în acest capitol, manipulatorul de erori de paginare a făcut parte din nivelurile arhitecturii instrucțiunilor și, prin urmare, nu este prezent în spațiul de adrese al sistemului de operare În practică, un astfel de handler ocupă unele pagini și poate fi eliminat în anumite circumstanțe (de exemplu, în conformitate cu politica de înlocuire a paginii) Ce s-ar întâmpla dacă gestionarea erorilor nu era disponibilă în momentul în care a apărut eroarea? Cum se rezolvă această problemă? Nu toate computerele conțin un bit hardware special care este setat automat atunci când este scrisă o pagină Cu toate acestea, trebuie să urmăriți cumva ce pagini sunt modificate, astfel încât să nu trebuiască să scrieți toate paginile înapoi pe disc după ce sunt utilizate Dacă presupuneți că fiecare pagină are biți speciali pentru a permite citirea, scrierea și executarea, atunci cum poate urmări modul în care paginile s-au schimbat și care nu s-au schimbat? Memoria segmentată conține segmente de pagină Fiecare adresă virtuală conține un număr de segment de biți, un număr de pagină de biți și un offset de biți AND în cadrul paginii Memoria principală conține KB, care sunt împărțite în pagini de KB Fiecare segment al se decide fie să citească numai, fie să citească și să execute, fie să citească și să scrie, fie să citească, să scrie și să execute Tabelele de pagini și opțiunile de protecție sunt date în Tabel Tabelul Tabelele de pagini pentru job Segmentul Segmentul Segmentul Segmentul Numai citire Citiți și executați Citiți, scrieți și executați Citiți și scrieți Pagina virtuală Cadru de pagină Pagina virtuală Cadru de pagină Pagina virtuală Cadru de pagină Pe disc Nici un tabel de pagini în memoria principală Tabelul de pagini nu este în memoria principală Pe disc Tabelul de pagini nu este în memoria principală Tabelul de pagini nu este în memoria principală Pe disc și inițializarea lor cu valoarea DD redundanță octeți j și inițialându-le la N DD j rezervare octeți ; iar inițializarea lor la Pentru computerele din familia Intel (adică x ), există mai mulți asamblatori care diferă unul de celălalt ca sintaxă În acest capitol, vom folosi limbajul de asamblare Microsoft MASM Există, de asemenea, destul de puține asamblatoare pentru procesoarele ARM, dar sunt apropiate ca sintaxă de asamblatorul x , așa că un exemplu ar trebui să fie suficient Declarațiile de asamblare constau din patru câmpuri: etichete, operații, operanzi și comentarii Etichetele servesc ca nume simbolice pentru adresele de memorie Acestea vă permit să săriți la comenzi și date, permițându-vă să accesați locul în care comenzile și datele sunt stocate printr-un nume simbolic Dacă o declarație este etichetată, eticheta este de obicei plasată la începutul liniei În lista de exemplu, există etichete: FORMULA, I, J și N În asamblatorul MASM, două puncte sunt plasate numai după etichetele instrucțiunilor, dar nu după etichetele datelor Această diferență nu este deloc fundamentală, ci doar că dezvoltatorii diferiților asamblatori au gusturi diferite Arhitectura mașinii nu afectează în niciun fel cutare sau cutare alegere Singurul avantaj al două puncte este că puteți scrie eticheta pe o linie separată și opcode-ul pe următoarea linie, indentată în același mod ca eticheta Fără două puncte, compilatorul nu ar putea distinge eticheta de codul operațional atunci când este plasat pe linii separate La unele asamblatoare, lungimea etichetei este limitată la sau caractere În același timp, în majoritatea limbilor de nivel înalt, lungimea numelor este arbitrară Numele lungi și bine alese fac programul mai ușor de citit și de înțeles Fiecare mașină are mai multe registre, dar au nume complet diferite Registrele Coge I se numesc EAX, EBX, ECX etc Câmpul opcode conține fie o abreviere simbolică a acestui cod (dacă declarația este o reprezentare simbolică a unei instrucțiuni de mașină), fie o directivă de asamblare Alegerea numelui este o chestiune de gust și, prin urmare diferiți dezvoltatori le numesc diferit Dezvoltatorii asamblatorului MASM au decis să folosească notația MOV atât pentru încărcarea unui registru din memorie, cât și pentru salvarea unui registru în memorie Ar putea la fel de bine să folosească MOVE cu LOAD OR STORE Programele în limbaj de asamblare trebuie adesea să rezerve spațiu pentru date Dezvoltatorii MASM au ales numele DD (Define Double) pentru această operațiune deoarece cuvântul avea o lungime de biți Câmpul operanzi al operatorului specifică adresele și registrele care sunt operanzii instrucțiunii mașinii În domeniul operanzilor instrucțiunii de adăugare a întregului, se indică ce trebuie adăugat și la ce Câmpul operand instrucțiunii de salt determină locul în care se face saltul Operanzii pot fi registre, constante, locații de memorie etc În câmpul de comentarii, programatorul își plasează explicațiile cu privire la funcționarea programului Aceste explicații pot fi utile programatorilor care trebuie apoi să utilizeze și să modifice programul altcuiva, precum și autorului însuși al programului când revine să lucreze la el un an mai târziu Un program de asamblare fără astfel de comentarii este ceva complet de neinteligibil (chiar și pentru autorul său) Comentariile pot fi utile doar oamenilor și nu afectează în niciun fel funcționarea programului directive Programul de asamblare definește nu numai instrucțiunile mașinii pe care procesorul trebuie să le execute, ci și instrucțiunile pe care asamblatorul însuși trebuie să le execute (de exemplu, alocă o anumită memorie sau emite o nouă pagină de listare) Comenzile de asamblare sunt numite pseudo-comenzi sau directive de asamblare În Listarea , am văzut deja o pseudo-comandă tipică DD În tabel listează alte pseudo-comenzi (directive) ale asamblatorului MASM pentru platforma x Tabelul Unele directive de asamblare MASM Descrierea directivei SEGMENT Începutul unui nou segment (text, date etc ) cu atribute definite ENDS Încheiați segmentul curent ALIGN Controlează alinierea următoarei comenzi sau date EQU Definiți un nou caracter egal cu expresia dată Alocarea memoriei DB pentru unul sau mai mulți octeți DW Alocarea memoriei pentru unul sau mai multe jumătăți de cuvinte de biți DD Alocarea memoriei pentru unul sau mai multe cuvinte de de biți DQ Alocarea memoriei pentru unul sau mai multe cuvinte duble pe de biți PROC Porniți procedura a continuat £ OOO Capitolul Nivel de asamblare Tabelul (continuare) Descrierea directivei ENDP Încheiați procedura MACRO Pornire macro ENDM End macro PUBLIC Exportați numele definit în acest modul EXTERN Importați numele dintr-un alt modul INCLUDE Apelați un alt fișier și includeți-l în fișierul curent IF Începe asamblarea condiționată a programului pe baza expresiei date ELSE Porniți asamblarea condiționată a programului dacă nu este îndeplinită condiția pentru directiva IF ENDIF Încheiați asamblarea programului condiționat COMMENT Specificarea unui nou caracter de început pentru câmpul de comentariu PAGE Forțați o întrerupere de pagină într-o listă Sfârșit Încheiați programul de asamblare Directiva SEGMENT începe un nou segment, iar directiva ENDS îl încheie Este permis să porniți un segment de text, apoi să începeți un segment de date, apoi să săriți înapoi la un segment de text și așa mai departe Directiva ALIGN transmite următorul șir (de obicei date) la adresa dată de argumentul directivei De exemplu, dacă segmentul curent conține deja de octeți de date, atunci după ce directiva ALIGN este executată, următoarea adresă alocată va fi adresa Directiva EQU dă un nume simbolic unei expresii De exemplu, după următoarea directivă, caracterul BASE poate fi folosit în program în loc de valoarea : BAZĂ EQU Expresia care urmează directivei EQU poate conține mai multe caractere conectate prin aritmetici și alți operatori, de exemplu: LIMIT EQU * BASE + Majoritatea asamblatorilor, inclusiv MASM, necesită ca un simbol să fie definit în program înainte de a apărea într-o expresie ca aceasta Directivele DB, DD, DW și DQ alocă memorie pentru una sau mai multe variabile de , , și, respectiv, octeți De exemplu: TABEL DB , , Această directivă alocă spațiu pentru octeți și le atribuie valori inițiale AND, și respectiv , în plus, definește tabelul de simboluri egal cu adresa unde este stocată valoarea Directivele PROC și ENDP definesc începutul și sfârșitul rutinelor de asamblare Procedurile în limbajul de asamblare îndeplinesc același rol ca și în limbajele de programare de nivel înalt Directivele MACRO și ENDM definesc începutul și sfârșitul unei macrocomenzi Vom vorbi despre macrocomenzi în secțiunea următoare Directivele publice și externe controlează vizibilitatea (accesibilitatea) numelor simbolice Programele sunt adesea scrise ca o colecție de fișiere Uneori, o procedură dintr-un fișier trebuie să apeleze o procedură sau să acceseze date definite într-un alt fișier Pentru a face posibile astfel de referințe încrucișate între fișiere, caracterul (numele) care urmează să fie pus la dispoziția altor fișiere este exportat utilizând directiva PUBLIC Pentru a preveni asamblatorul să dea avertismente cu privire la utilizarea unui simbol care nu este definit în acest fișier, acest simbol poate fi declarat extern (extern), adică definit într-un alt fișier Simbolurile care nu sunt definite în niciuna dintre aceste directive pot fi utilizate numai în cadrul aceluiași fișier Prin urmare, chiar dacă, de exemplu, simbolul F apare în mai multe fișiere, acest lucru nu va provoca niciun conflict, deoarece simbolul specificat este local pentru fiecare fișier Directiva INCLUDE determină asamblatorul să apeleze un alt fișier și să îl includă în cel curent Astfel de fișiere includ adesea definiții, macrocomenzi și alte elemente necesare diferitelor fișiere Multe limbaje de asamblare, inclusiv MASM, acceptă asamblarea condiționată a programelor De exemplu: WORDSIZE EQU IF WORDSIZE GT WSIZE: DD ELSE WSIZE: DD ENDIF Acest program alocă un cuvânt de de biți în memorie și își apelează adresa WSIZE Acest cuvânt primește una dintre valorile: fie , fie , în funcție de valoarea WORDSIZE (în acest caz, ) O astfel de construcție poate fi utilizată într-un program care poate fi asamblat în ambele moduri de de biți și de biți Prin inserarea directivelor IF și ENDIF la începutul și la sfârșitul codului dependent de mașină și apoi prin schimbarea definiției unice, WORDSIZE, programul poate fi ajustat automat la una din două dimensiuni Folosind această abordare, un astfel de program sursă poate fi utilizat pentru mai multe mașini diferite În cele mai multe cazuri, toate definițiile specifice mașinii, cum ar fi WORDSIZE, sunt stocate într-un singur fișier și ar trebui să existe fișiere diferite pentru diferite mașini Prin includerea unui fișier cu definițiile necesare, programul poate fi ușor recompilat pentru diferite mașini Directiva comentariu permite utilizatorului să înlocuiască caracterul de început al comentariului (punct și virgulă) cu altceva Directiva PAGE este folosită pentru a controla listarea unui program În cele din urmă, directiva END marchează sfârșitul programului Există multe mai multe directive în asamblatorul MASM Alți asamblatori x conțin un set diferit de directive, deoarece aceste directive sunt determinate nu de arhitectura mașinii, ci de gusturile dezvoltatorilor de asamblare Macro-uri De obicei, programatorii limbajului de asamblare trebuie să repete aceleași lanțuri de comandă iar și iar Deși este cel mai ușor să scrieți nevoia comenzi ori de câte ori solicită un homosexual, acest lucru devine plictisitor, mai ales dacă secvența este suficient de lungă sau dacă trebuie repetată prea des Desigur, puteți aranja această secvență într-o procedură și o puteți apela dacă este necesar Totuși, această strategie are și dezavantajele ei, deoarece în acest caz va trebui să executați o instrucțiune de apel de procedură specială și o instrucțiune de returnare de fiecare dată Dacă secvențele de instrucțiuni sunt scurte (de exemplu, doar două instrucțiuni), dar sunt utilizate frecvent, atunci apelurile de procedură pot afecta semnificativ performanța programului Macro-urile sunt o soluție simplă și eficientă la această problemă Definiție macro, apel macro și extindere macro O macrocomandă este o modalitate de a da un nume unei bucăți de cod După ce macro-ul este definit, programatorul poate scrie numele macro-ului în loc de un fragment de cod În esență, o macrocomandă este doar numele unei bucăți de cod Lista - arată un program de asamblare x care schimbă de două ori valorile variabilelor P și Q Iată cum arată lanțul principal de instrucțiuni: MOV EAXjP MOV EBXjQ MOV QjEAX MOV PjEBX Lista definește această secvență ca macrocomandă SWAP După ce macro-ul este definit, fiecare apariție a numelui său este înlocuită cu patru linii de cod Lista Modificarea valorilor variabilelor P și Q fără a utiliza macromoѵ EAX,P MOV EBXjQ MOV QjEAX MOV PjEBX MOV EAXjP MOV EBXjQ MOV QjEAX MOV PjEBX Lista - - Modificarea valorilor variabilelor P și Q folosind o macrocomandă SWAP MACRO MOV EAXjP MOV EBXjQ MOV QjEAX MOV PjEBX ENDM SWAP SWAP Deși definiția unei macrocomenzi arată ușor diferită în diferite limbaje de asamblare, în total ea constă din aceleași părți de bază: + antet macro, care dă numele macrocomenzii care se definește; + text care conține corpul macro-ului; + directivă care completează definiția (de exemplu, ENDM) Când asamblatorul întâlnește o definiție de macro într-un program, o stochează în tabelul de definiții de macro pentru o utilizare ulterioară Ori de câte ori o macrocomandă (în exemplul nostru, SWAP) apare ca un cod operațional în program, asamblatorul o va înlocui cu corpul macrocomenzii Utilizarea unui nume de macrocomandă ca opcode se numește apel de macrocomandă, iar înlocuirea acestuia cu un corp de macrocomandă se numește extindere macro Extinderea macro-ului are loc în timpul asamblarii, nu în timpul execuției programului Acest moment este foarte important Programele din listele - și - generează același cod de mașină Este imposibil să se determine dintr-un program în limbaj de mașină dacă au fost utilizate macrocomenzi atunci când a fost generat sau nu Nu există semne de macrocomenzi în programul rezultat Apelurile macro nu trebuie confundate cu apelurile de procedură Principala diferență este că un apel macro este o comandă către asamblator pentru a înlocui numele macrocomenzii cu corpul macrocomenzii Un apel de procedură este o instrucțiune de mașină care, odată introdusă într-un program obiect, trebuie executată ulterior pentru a apela procedura În tabel compară apelurile macro și apelurile de procedură Tabelul Compararea apelurilor macro și apelurilor de procedură Întrebare Apel macro Apel de procedură Când se face apelul? În timpul asamblarii În timpul executării programului Corpul macrocomenzii sau procedurii este inserat în programul obiect de fiecare dată când se efectuează apelul? Nu chiar Este o instrucțiune de apel de procedură inserată într-un program obiect, care este apoi executat? Nu da Trebuie să folosesc comanda return după apel? Nu da Câte copii ale corpului unui apel macro sau proceduri apar într-un program obiect? Unul pentru apel macro Unul La nivel conceptual, putem considera că procesul de asamblare are loc în două treceri La prima trecere, toate definițiile macro sunt păstrate și apelurile macro sunt extinse La a doua trecere, textul rezultat este procesat Cu alte cuvinte, programul original este citit și apoi transformat într-un alt program din care sunt eliminate toate definițiile macro și în care fiecare apel de macro este înlocuit cu un corp de macro Programul rezultat fără macro-uri este apoi trecut la asamblator Este important să rețineți că un program este un șir de caractere, care pot fi litere, cifre, spații, semne de punctuație și simboluri întoarcere cărucior (linie nouă) Extinderea macro-urilor înlocuiește subșirurile specificate din acest șir cu alte șiruri de caractere Macro-urile sunt un mijloc de manipulare a șirurilor de caractere fără a le schimba sensul Macro-uri cu parametri Macro-urile descrise în subsecțiunea anterioară pot fi folosite pentru a reduce volumul programelor care repetă adesea aceeași secvență de comenzi Cu toate acestea, uneori, un program conține mai multe secvențe de comenzi similare, dar nu identice De exemplu, în Lista , prima secvență schimbă valorile P și Q, iar a doua schimbă R și S Lista , Modificarea valorilor a două perechi de variabile fără a utiliza macro-ul MOV EAXjP MOV EBXjQ MOV QjEAX MOV PjEBX MOV EAXjR MOV EBXjS MOV SjEAX MOV RjEBX Pentru a face față unor astfel de secvențe aproape identice, sunt furnizate definiții macro care oferă parametri formali și apeluri macro, în care parametrii formali sunt înlocuiți cu parametri reali Parametrii actuali sunt plasați în câmpul operand al apelului macro Listarea arată programul din Listarea , care include o macrocomandă cu doi parametri Numele simbolice P și P sunt parametri formali În timpul extinderii macro, fiecare apariție a lui P în corpul macro-ului este înlocuită cu primul parametru real și fiecare apariție a lui P cu al doilea parametru real Exemplu: SCHIMBA PjQ În acest apel macro, P este primul parametru real și Q este al doilea parametru real Astfel, programele din listele și sunt identice Lista - - Modificarea valorilor a două perechi de variabile folosind CHANGE MACRO PljP MOV EAX, PI MOV EBXjP MOV P jEAX MOV PljEBX ENDM SCHIMBA PjQ SCHIMBA R,S Caracteristici suplimentare Majoritatea procesoarelor macro acceptă o serie de caracteristici suplimentare care facilitează funcționarea unui programator Aegg Blair În această subsecțiune, ne vom uita la câteva funcții suplimentare ale asamblatorului MASM Pentru toți asamblatorii, o problemă este tipică: etichetele sunt duplicate Să presupunem că macro-ul conține o instrucțiune de ramificare condiționată și un mega la care este făcută ramificația Dacă macro-ul este apelat de două sau mai multe ori, me i va fi duplicat, ceea ce va provoca o eroare Prin urmare, programatorul trebuie ii| scrieți o etichetă pentru fiecare apel ca parametru O altă decizie (este folosită în MASM) este de a declara eticheta locală (LOCAL), când asamblatorul va genera automat o etichetă diferită de fiecare dată când macro-ul este extins În unele asamblatoare, etichetele numerice sunt considerate locale în mod implicit MASM și majoritatea celorlalți asamblatori permit definirea macrocomenzilor în cadrul altor macrocomenzi Această caracteristică este foarte utilă în combinație cu asamblarea dificilă a programului De obicei, aceeași macrocomandă este definită cu i în ambele ramuri ale instrucțiunii IF: Ml MACRO IF WORDSIZE GT M MACRO ENDM ALTE M MACRO ENDM ENDIF ENDM În ambele cazuri, macro M va fi definită, dar definiția depinde dacă programul este asamblat pe o mașină de biți sau pe una de de biți Dacă M nu este apelată, macro M nu va fi definită deloc Unele macrocomenzi pot apela alte macrocomenzi, inclusiv ele însele O macrocomandă E EBX = ROBERTA: MOV ECX, K j ECX = K IMUL EAX, EAX j EAX = I ♦ I IMUL EBX, EBX j EBX = * IMUL ECXj ECX j ECX = K * K MARILYN: ADAUGĂ EAX, EBX > EAX = I * I + * ADAUGĂ EAX, ECX i EAX \u d I ♦ I + * n i- K * K STEPHANY: JMP DONE, trec la DONE La prima trecere, majoritatea asamblatorilor folosesc cel puțin trei tabele: tabelul de simboluri, tabelul de directive și tabelul de coduri operaționale Dacă este necesar, se folosește și un tabel literal Tabelul cu nume simbolice conține o intrare pentru fiecare nume, așa cum se arată în Tabelul Numele simbolice sunt fie etichete, fie definite în mod explicit (de exemplu, folosind directiva EQU) Fiecare element al tabelului de nume simbolice conține numele în sine (sau un indicator către oo capitolul nivel de asamblare it), valoarea sa numerică și uneori unele informații suplimentare Poate include: + lungimea câmpului de date asociat cu numele simbolic; + biți de realocare a memoriei (care indică dacă valoarea simbolului se va schimba dacă programul este încărcat ns la adresa unde ar fi trebuit să fie încărcat de către asamblator); + informații despre dacă numele simbolic poate fi accesat din afara procedurii Tabelul Tabel de simboluri pentru programul din lista Nume simbolic Semnificație Alte informații MARIA ROBERTA MARILYN STEFANIA Tabelul de coduri operaționale are cel puțin o intrare pentru fiecare cod operațional de asamblare simbolică (Tabelul ) Fiecare intrare conține un cod operațional de caractere, doi operanzi, o valoare numerică a codului operațional, lungimea instrucțiunii și un număr de tip prin care puteți determina cărui grup îi aparține codul operațional (codurile operaționale sunt împărțite în grupuri în funcție de numărul și tipul operanzilor) Tabelul Mai multe elemente ale tabelului de opcode asamblatorului x Opcode Primul operand Al doilea operand Cod hexadecimal Lungime comandă Clasa de comandă AAA - - ADAUGĂ EAX immcd ADAUGĂ regul SI EAX immed ȘI regul Ca exemplu, luați în considerare opcode-ul ADD Dacă primul operand al instrucțiunii ADD este registrul EAX și al doilea operand este o constantă de de biți (immed ), atunci se folosește codul operațional x și lungimea instrucțiunii este de octeți (pentru constantele care pot fi exprimate în și biți, se folosesc alte coduri decât cele indicate în tabel) Dacă ambii operanzi ai unei instrucțiuni ADD sunt registre, instrucțiunea are octeți și codul operațional este x Toate combinațiile de opcode și operanzi care se potrivesc cu această regulă sunt clasa și sunt tratate la fel ca o instrucțiune ADD cu două registre ca operanzi O clasă de comandă identifică o procedură care este apelată pentru a procesa toate comenzile de un anumit tip În unele asamblatoare, este posibil să scrieți instrucțiuni folosind adresarea directă, chiar dacă instrucțiunea corespunzătoare nu este în limba țintă Astfel de comenzi cu adrese "pseudo-directe" sunt procesate în felul următor Asamblatorul atribuie o zonă de memorie operandului imediat la sfârșitul programului și generează o instrucțiune care îl accesează De exemplu, mainframe-ul IBM nu are comenzi cu adrese directe Cu toate acestea, pentru a încărca constanta cu cuvânt complet în registrul , programatorul poate scrie comanda: L =F' ' Astfel, programatorul nu trebuie să scrie o directivă pentru a plasa un cuvânt în memorie, să-i dea valoarea , să-i dea o etichetă și apoi să folosească acea etichetă într-o instrucțiune L Constanțele pentru care asamblatorul le alocă automat memorie sunt numite literale Literale fac programul mai ușor de citit și de înțeles; cu ele, semnificația constantei devine evidentă deja atunci când citiți în enunțul original La prima trecere, asamblatorul construiește toate literalele care sunt utilizate în program Toate cele trei computere pe care le-am luat drept exemple au instrucțiuni cu adrese imediate, astfel încât asamblorii lor nu acceptă literale Comenzile cu adrese imediate sunt acum considerate destul de comune, deși înainte erau considerate ceva complet exotic Poate că popularitatea literalilor i-a convins pe dezvoltatori că adresarea directă este o idee foarte bună Dacă sunt necesare literali, atunci în timpul asamblarii este stocat un tabel de literali în care apare un nou element de fiecare dată când este întâlnit un literal După prima trecere, tabelul este sortat și elementele duplicat sunt eliminate Lista arată o procedură care poate sta la baza primei treceri a asamblatorului Numele comenzilor sunt alese în așa fel încât esența lor să fie clară Această listă este un bun punct de plecare pentru învățarea adunării Este destul de scurt, de înțeles și arată care ar trebui să fie următorul pas - aceasta este scrierea procedurilor care sunt menționate în această listă Lista Prima trecere a asamblatorului simplu public static void pass one() { // Diagrama primei treceri a asamblatorului boolean more input=true; Linie șir, simbol, literal, int locație counter, lungime, int final ENDSTATEMENT = - ; locație counter = ; initialize tables(); în timp ce (mai multe input) { line = read next line(); lungime = ; tip= ; // steag care oprește prima trecere opcode; // câmpuri de comandă valoare, tip; // variabile // sfârșitul semnalelor de intrare // asamblarea primei instrucțiuni în celula // inițializare generală // more input cu directiva END // primește valoarea "false" // citește șirul // # octet în comandă // tipul comenzii if (linia nu este comentare(linia)) { simbol = verifica pentru simbol(linie); dacă (simbol != nul) // șirul conține o etichetă? // dacă da, atunci // caracterul și valoarea sunt scrise continuare & Lista - (continuare) enter new symbol(simbol, locație counter); literal = check for literal(line); // șirul conține un literal? if (literal != nulli) // dacă da, atunci it // stocat în tabel enter new literal(literal); // Acum definim tipul de opcode - înseamnă opcode invalid opcode = extract opcode(line); // determină locația codului de operare tip=search opcode table(opcode); // găsiți formatul, II, de exemplu, OP REG ,REG if (type Modulul obiect B Modulul obiect A Orez Programul executabil din fig , b, deplasat în sus cu de adrese Multe comenzi accesează acum adresele de memorie greșite Chiar dacă aceste informații ar fi disponibile, ar fi o risipă să redistribuim toate adresele de fiecare dată când programul este încărcat Problema mutarii programelor deja legate si stocate in memorie este direct legata de momentul in care numele simbolice sunt in sfarsit legate de adresele de memorie fizica absolute Programul conține nume simbolice pentru adresele de memorie (de exemplu, BR L) Momentul la care este determinată adresa din memoria principală corespunzătoare numelui L se numește timp de legare Există cel puțin șase timpi de legare: Când programul este scris Când programul este difuzat Când programul se conectează, dar înainte de încărcare Când programul este încărcat Când este încărcat registrul de bază, care este folosit pentru adresare Când se execută o comandă care conține adresa necesară Dacă o instrucțiune care conține o adresă este remapată în memorie după ce a fost legată, acea adresă este invalidă (presupunând că obiectul referit este, de asemenea, mutat în memorie) Dacă compilatorul generează cod binar executabil, atunci legătura are loc în timpul traducerii, iar programul trebuie rulat de la adresa specificată de torul trappel Folosind metoda descrisă în subsecțiunea anterioară, numele simbolice sunt asociate cu adrese absolute în timpul conectării, motiv pentru care programele nu pot fi mutate după legare (vezi Figura ) Sunt două întrebări aici În primul rând, când sunt asociate numele simbolice cu adrese virtuale? În al doilea rând, când sunt asociate adresele virtuale cu adresele fizice? Numai după aceste două operații procesul de legare poate fi considerat finalizat Când linker-ul îmbină spații de adrese separate ale modulelor obiect într-un singur spațiu de adrese liniar, acesta creează de fapt un spațiu de adrese virtual Realocarea și legarea memoriei sunt necesare pentru a asocia nume simbolice cu adrese virtuale specifice Acest lucru este valabil indiferent dacă se utilizează sau nu memoria virtuală Să presupunem că spațiul de adrese prezentat în Fig , b, a fost paginat Este clar că adresele virtuale corespunzătoare numelor simbolice A, B, C și D sunt deja definite, deși adresele lor fizice vor depinde de conținutul tabelului de pagini În realitate, legarea numelor simbolice de adrese virtuale are loc în codul binar executabil Orice mecanism care face ușoară schimbarea mapării adreselor virtuale cu adresele din memoria fizică principală va facilita mutarea unui program în memoria principală, chiar dacă acestea sunt deja asociate cu un spațiu de adrese virtuale Un astfel de mecanism este paginarea Dacă un program este mutat în memoria principală, trebuie schimbat doar tabelul de pagini, nu programul în sine Cel de-al doilea mecanism este utilizarea Registrului de remapare și completare a timpului Calculatorul CDC și succesorii săi conțineau un astfel de registru Pe mașinile care utilizează această tehnică de remapare a memoriei, registrul indică întotdeauna adresa fizică a începutului programului curent În hardware, acest registru este adăugat la toate adresele înainte ca acestea să fie alocate în memorie Întregul proces de realocare a memoriei este transparent pentru programele utilizatorului I Programele utilizatorului nici măcar nu știu că memoria este realocată Dacă programul este mutat, sistemul de operare trebuie să |>actualizeze registrul de realocare Acest mecanism este mai puțin comun decât paginarea, deoarece întregul program trebuie mutat (dacă există registre separate de realocare pentru cod și date, ca, de exemplu, în procesorul Intel , atunci ambele părți ale programului vor fi obiecte mutate) Al treilea mecanism poate fi utilizat în mașinile care implementează capacitatea de a accesa memorie în raport cu contorul de programe La aceste mașini, ori de câte ori un program este mutat în memoria principală, este suficient să actualizați doar contorul de programe Un program, ale cărui accesuri la memorie sunt fie asociate cu contorul de programe, fie sunt absolute (de exemplu, accesări la registrele dispozitivelor I/O prin adrese absolute), se numește independent de poziție I O procedură independentă de apel poate fi plasată oriunde în spațiul de adrese virtuale fără a fi necesară realocarea adreselor de memorie Legătura dinamică Strategia de legare despre care am discutat în subsecțiunea Sarcini de legătură are o caracteristică: toate procedurile cerute de program sunt legate înainte de începerea programului Cu toate acestea, dacă toate legăturile sunt stabilite înainte ca programul să înceapă să ruleze într-un computer cu memorie virtuală, posibilitățile memoriei virtuale nu vor fi utilizate pe deplin Multe programe conțin proceduri care sunt apelate numai în anumite circumstanțe De exemplu, compilatoarele conțin proceduri pentru compilarea declarațiilor rar utilizate sau pentru remedierea erorilor rare O modalitate mai flexibilă de a lega procedurile compilate separat este de a lega fiecare procedură în momentul în care este apelată pentru prima dată Acest proces se numește legătură dinamică Legătura dinamică a fost folosită pentru prima dată în sistemul MULTICS și, în unele privințe, această implementare rămâne de neegalat Să ne uităm la exemple de legături dinamice pe mai multe sisteme Legături dinamice în MULTICS În sistemul MULTICS, fiecare program este asociat cu un segment, așa-numitul segment de legătură Conține un bloc de informații pentru fiecare procedură care poate fi apelată Acest bloc începe cu un cuvânt rezervat pentru adresa virtuală a procedurii, urmat de numele procedurii, care este stocat ca șir de caractere În legarea dinamică, apelurile de procedură în limba gazdă sunt traduse în instrucțiuni care, prin adresare indirectă, se referă la primul cuvânt al blocului corespunzător, așa cum se arată în Fig , a Compilatorul completează acest cuvânt fie cu o adresă invalidă, fie cu un set special de biți care aruncă o excepție Segmentul de procedură A Apelați Pământul CHEAM FOC Apelați ATR CHEAM APA Apelați Pământul CHEAM APA Segment de aspect Adresă greșită aplicatie' R Adresă greșită Adresă greșită E R A R E Adresă greșită Cuvânt nevalid Informații de aspect pentru procedura AIR Numele procedurii este stocat ca șir de caractere b Orez Legătura dinamică: procedură EARTH înainte de apel (a); procedura EARTH după apelarea și conectarea {b) Când apelați o procedură într-un alt segment, o încercare de a accesa indirect un cuvânt nevalid aruncă o excepție de linker Linkerul găsește apoi șirul de caractere din cuvântul care urmează adresei greșite și începe să caute în directorul utilizatorului procedura compilată cu numele găsit În continuare, acestei proceduri i se alocă o adresă virtuală (de obicei în propriul segment), iar această adresă virtuală este scrisă peste adresa greșită, așa cum se arată în fig b Comanda care a provocat eroarea de legătură este apoi re-execută, permițând programului să continue unde era înainte de excepție Toate apelurile ulterioare la această procedură vor rula fără eroare, deoarece cuvântul anterior nevalid conține acum adresa virtuală corectă Prin urmare, cu legătura dinamică, linkerul este apelat numai atunci când procedura este apelată pentru prima dată Nu trebuie să-l suni din nou Legături dinamice în Windows Toate versiunile de Windows, inclusiv Windows NT, acceptă legătura dinamică Legătura dinamică utilizează un format de fișier special numit DLL (Dynamic Link Library) Bibliotecile de legături dinamice pot conține proceduri, date sau ambele De obicei, acestea sunt utilizate pentru a permite două sau mai multe procese să partajeze procedurile și datele unei biblioteci Majoritatea fișierelor DLL au extensia dll, dar există și alte extensii, cum ar fi drv (pentru bibliotecile de drivere) și fon (pentru bibliotecile de fonturi) Cea mai comună formă de DLL este o bibliotecă, care constă dintr-un set de proceduri care pot fi încărcate în memorie și accesate de mai multe procese în același timp Pe fig Figura prezintă două procese care partajează un fișier DLL care conține proceduri, L, B, C și D Programul utilizează procedura L; programul este procedura C, deși ar putea foarte bine să folosească aceeași procedură utilizator Personalizat procesul procesul Orez Două procese au același DLL Fișierul DLL este construit de linker dintr-un set de fișiere de intrare Construirea unui DDL este similară cu construirea unui binar executabil, cu excepția faptului că, atunci când DLL-ul este construit, un steag special este transmis linkerului pentru a indica faptul că DLL-ul este necesar Fișierele DLL sunt de obicei asamblate dintr-un set de rutine de bibliotecă care pot fi necesare proceselor multiple Exemple comune de DLL-uri sunt interfețele pentru biblioteca de apeluri de sistem Windows și bibliotecile grafice mari Folosind fișiere DDL, economisim spațiu în memorie și pe disc Dacă o anumită bibliotecă ar fi legată static la fiecare program care o folosește, acea bibliotecă ar trebui inclusă în toate binarele executabile din memorie și pe disc, ceea ce ar fi prea irositor Și dacă există un fișier DLL, va exista o singură instanță a bibliotecii pe disc și în memorie În plus, această abordare facilitează actualizarea rutinelor bibliotecii, chiar și după ce programele care le folosesc au fost compilate și legate Pentru pachetele software comerciale în care programul de intrare nu este în mod normal disponibil pentru utilizatori, prezența fișierelor DLL înseamnă că furnizorul de software va putea remedia erorile software detectate prin simpla distribuire de noi fișiere DLL pe Internet, fără a necesita modificări ale fișierelor binare a principalelor programe Principala diferență dintre un DLL și un program binar executabil este că un fișier DLL nu poate rula și rula singur (deoarece nu are un program principal) De asemenea, conține informații complet diferite în antet În plus, fișierul DLL are mai multe proceduri suplimentare care nu au legătură cu procedurile din bibliotecă De exemplu, există o procedură care este apelată automat ori de câte ori un proces nou se conectează la un fișier DLL și o altă procedură care este apelată automat ori de câte ori un proces se leagă la un fișier DLL Aceste rutine pot aloca și dezaloca memorie sau gestiona alte resurse de care DLL-ul are nevoie Un program se poate conecta la un fișier DLL în două moduri: prin legare implicită sau explicită Cu legături implicite, programul utilizatorului este legat static la un fișier special, așa-numita bibliotecă de import O bibliotecă de import este creată de un utilitar special conceput pentru a extrage anumite informații dintr-un fișier DLL Biblioteca de import oferă o legătură prin care programul utilizatorului poate accesa fișierul DLL Un program utilizator poate fi conectat la mai multe biblioteci de import Când un program care este legat implicit este încărcat în memorie pentru execuție, Windows verifică ce DLL-uri are nevoie și dacă acestea sunt toate în memorie Acele fișiere care nu sunt încă în memorie sunt încărcate acolo imediat (dar nu neapărat în întregime, deoarece sunt paginate) Apoi, anumite modificări sunt aduse structurilor de date din bibliotecile de import, astfel încât să poată fi determinată locația procedurilor apelate (aceasta este similară* cu modificările ilustrate în Figura - ) De asemenea, ele trebuie mapate la spațiul de adrese virtuale al programului Din acest moment, programul utilizatorului este gata de rulare; poate apela proceduri din fișierele DLL ca și cum ar fi legate static la el Alternativa este legarea explicită Legătura explicită nu necesită nici biblioteci de import sau încărcare concomitentă a DLL-urilor de la utilizator ■ lava city jpuDQHD ayivmilvri program În schimb, programul utilizator efectuează un apel explicit în timpul execuției pentru a se conecta la fișierul DLL și apoi face apeluri suplimentare pentru a obține adresele procedurilor de care are nevoie Când toate acestea sunt făcute, programul face un apel final pentru a rupe legătura cu fișierul DLL Când ultimul proces întrerupe legătura cu un fișier DLL, acel fișier poate fi descărcat din memorie Este important să înțelegeți că o procedură dintr-un fișier DLL nu are caracteristici distinctive (cum ar fi procese sau fire de execuție) Se rulează pe firul programului apelant și folosește stiva programului apelant pentru variabilele locale Poate conține date statice specifice procesului (precum și date generale), dar altfel funcționează ca o procedură legată static Singura diferență semnificativă este modul în care este stabilită conexiunea Legături dinamice în UNIX UNIX utilizează biblioteci partajate care sunt în esență similare cu DLL-urile Windows La fel ca un fișier DLL, o bibliotecă de acces partajat este un fișier de arhivă care conține mai multe proceduri sau module de date care sunt prezente în memorie în timp ce un program rulează și poate fi asociat cu mai multe procese în același timp Biblioteca standard C și majoritatea programelor de rețea sunt biblioteci partajate UNIX acceptă numai legături implicite, astfel încât biblioteca de acces partajat constă din două părți: o bibliotecă gazdă (binara gazdă), care este legată static la executabil și o bibliotecă țintă (binara țintă), care este apelată în timpul execuției În ciuda unor diferențe în detaliu, conceptul este în esență același cu conceptul DLL Rezumatul capitolului Deși majoritatea programelor pot și ar trebui să fie scrise în limbaje de nivel înalt, în unele situații este necesară utilizarea limbajului de asamblare Candidații probabili sunt programe pentru calculatoare cu resurse insuficiente (de exemplu, procesoare pentru carduri inteligente, diverse dispozitive, dispozitive digitale portabile) Un program de asamblare este o reprezentare simbolică a unui program într-un anumit limbaj de mașină Este tradus în limbajul mașinii printr-un program special numit assembler Dacă o aplicație necesită performanțe ridicate, cel mai bine este să scrieți mai întâi programul într-un limbaj de nivel înalt, apoi prin teste pentru a determina care parte a programului durează cel mai mult timp pentru a fi executată și să rescrieți numai aceste părți ale programului în asamblator Practica arată că adesea o mică parte din întregul program ocupă cea mai mare parte a întregului timp de execuție al acestui program Mulți asamblatori oferă macrocomenzi care permit programatorilor să dea nume simbolice secvențe întregi de instrucțiuni De obicei, aceste macrocomenzi pot fi parametrizate Macro-urile sunt implementate folosind un algoritm de procesare literală a șirului Majoritatea asamblatorilor sunt cu două treceri În timpul primei treceri, este construit un tabel de nume simbolice pentru etichete, literale și identificatori declarați Numele simbolice pot fi fie nesortate și căutate prin scanări secvențiale de tabel, fie mai întâi sortate și apoi căutate în binar sau împărțite Dacă numele simbolice nu trebuie să fie eliminate în timpul primei treceri, hashing este cea mai bună metodă Programul executabil este creat în timpul celei de-a doua treceri În ceea ce privește directivele (pseudo-comenzi), unele dintre ele sunt executate în timpul primei treceri, altele - în timpul celei de-a doua Programele care se asamblează independent unele de altele pot fi legate între ele pentru a forma un program binar executabil Această activitate este realizată de linker, care remapează programele în memorie și leagă nume Legătura dinamică este o tehnică în care anumite proceduri nu sunt legate până când sunt apelate Bibliotecile partajate pe UNIX și bibliotecile cu linkuri dinamice (DLL) pe Windows folosesc tehnologia linkurilor dinamice Întrebări și sarcini În unele programe, doar % din cod durează % din timpul de execuție Comparați următoarele trei strategii în ceea ce privește programarea și timpul de execuție Să presupunem că este nevoie de de luni-om pentru a scrie un program C, dar assemblerul este de ori mai greu de scris, dar de ori mai eficient ) Întregul program este scris în C ) Întregul program este scris în assembler ) Programul este mai întâi scris în C, iar apoi % necesar din program este rescris în assembler Regulile asamblatorilor cu două treceri sunt aplicabile compilatorilor? Luați în considerare următoarele situații ipotetice ) Compilatorul generează module obiect în loc de codul de asamblare ) Compilatorul generează limbaj de asamblare simbolic Toți asamblatorii pentru platforma x primesc adresa țintă ca prim operand și adresa sursă ca al doilea Ce probleme ar putea apărea cu o abordare diferită? Următorul program poate fi asamblat în două treceri? EQU este o directivă care echivalează o etichetă cu o expresie dintr-un câmp operand P EQU QQ EQU RR EQU SS EQU O anumită companie plănuiește să dezvolte un asamblator pentru un computer cu un cuvânt de de ori Pentru a reduce costurile, managerul de proiect a decis să o facă Reduceți lungimea numelor simbolice, astfel încât fiecare nume să poată fi stocat într-un singur cuvânt Managerul a anunțat că numele simbolice pot consta doar din litere, cu litera Q interzisă Care este lungimea maximă a unui nume simbolic? Descrieți schema dvs de codare Care este diferența dintre o comandă și o directivă? Cum este diferit contorul de adrese de comandă de contorul de comenzi? Există vreo diferență între ele? La urma urmei, ambii țin evidența informațiilor despre următoarea comandă din program Care va fi tabelul numelor simbolice după procesarea următoarelor instrucțiuni de asamblare x (primei instrucțiuni i se atribuie adresa )? EVEREST: K : POP IN PUSH BP ; ( octet); ( octet) WHITNEY: MOV BP,SP ; ( octeți) MCKINLEY: PUSH X ; ( octeți) FUJI: PUSH SI ; ( octet) QIBO: SUB SI, ; ( octeți) Vă puteți imagina circumstanțe în care o etichetă s-ar potrivi cu un cod operațional (de exemplu, comenzile mele ar putea fi folosite ca etichetă)? Argument Ce pași trebuie făcuți pentru a găsi elementul "Berkeyey" prin căutare binară în următoarea listă: Ann Arbor, Berkeley, Cambridge, Eugene, Madison, New Haven, Palo Alto, Pasadena, Santa Cruz, Stony Brook, Westwood, Izvoarele Galbene Când calculați elementul din mijloc într-o listă cu un număr par de elemente, luați elementul care vine imediat după cel din mijloc I Este posibil să se utilizeze o căutare binară pe un tabel care conține un număr prim de elemente? Calculați codul hash pentru fiecare dintre următoarele nume simbolice Pentru a face acest lucru, adunați literele (a = , b = etc ) și luați rezultatul modulo dimensiunea tabelului hash Tabelul hash conține sloturi (de la la ) els, jan, jelle, maaike Fiecare nume simbolic oferă o valoare hash unică? Dacă nu, cum se rezolvă coliziunea? Metoda hash descrisă în textul capitolului vă permite să aranjați toate elementele care au același cod hash într-o listă legată O metodă alternativă este crearea unui singur tabel de n sloturi, cu spațiu în fiecare slot pentru o cheie și valoarea acesteia (sau pointeri către acestea) Dacă algoritmul de hashing generează un slot care este deja plin, se face o a doua încercare folosind același algoritm de hashing Dacă de data aceasta slotul este plin, algoritmul este aplicat din nou și așa mai departe Aceasta continuă până când este găsit un slot gol Dacă proporția de sloturi care sunt deja umplute este R, atunci de câte încercări vor fi necesare în medie pentru a introduce un nou caracter în tabel? Probabil, cândva în viitor, va fi posibil să puneți mii de procesoare identice pe un singur cip, fiecare dintre ele conține întrebări și sarcini ooh câteva cuvinte de memorie locală Dacă toate procesoarele pot citi și scrie trei registre comune, atunci cum se implementează memoria asociativă? Procesorul x are o arhitectură segmentată cu mai multe segmente independente Asamblatorul pentru această mașină ar putea conține o directivă SEG N care pune codul și datele ulterioare în segmentul N Ar afecta o astfel de schemă contorul de adrese de instrucțiuni? Programele sunt adesea legate de numeroase DLL-uri Nu ar fi mai eficient să puneți toate procedurile într-un fișier DLL mare și apoi să îl conectați? Este posibil să mapați un fișier DLL la spațiile de adrese virtuale ale două procese cu adrese virtuale diferite? Dacă da, care sunt problemele? Pot fi rezolvate? Dacă nu, ce se poate face pentru a le elimina? O modalitate de conectare (statică) este următoarea: înainte de a scana biblioteca, linkerul face o listă de proceduri necesare, adică nume care sunt definite ca externe (externe) în modulele legate Linker-ul apoi iterează prin întreaga bibliotecă în secvență, extragând fiecare procedură care se află în lista* de nume dorite Va funcționa o astfel de schemă? Dacă nu, de ce nu și cum poate fi remediat? Poate fi folosit un registru ca parametru real într-un apel macro? Dar o constantă? Dacă da, de ce? Dacă nu, de ce nu? Trebuie să implementați un macro-asamblator Din motive estetice, șeful tău a decis că definițiile macro nu ar trebui să precedă apelurile macro Cum va afecta această decizie implementarea? Gândiți-vă cum puteți introduce macro-asamblatorul într-o buclă infinită Linkerul citește module de , , , și respectiv de cuvinte Dacă sunt încărcate în această ordine, atunci care sunt constantele de realocare a memoriei? Scrieți un modul de tabel de simboluri format din două proceduri: introducere (simbol, valoare) și căutare (simbol, valoare) Primul introduce noi nume simbolice în tabel, iar al doilea le caută în tabel Utilizați o opțiune de hashing Repetă exercițiul anterior, dar în loc de un tabel hash, după ce ai introdus numele de familie, sortează tabelul și folosește algoritmul de căutare binar pentru a găsi numele simbolice Scrieți asamblatorul simplu pentru computerul Mic- despre care am discutat în capitolul Pe lângă operarea pe instrucțiunile mașinii, oferiți capacitatea de a atribui constante numelor simbolice în timpul asamblarii, precum și capacitatea de a asambla o constantă într-o cuvânt mașină Adăugați macrocomenzi la asamblatorul pe care ar fi trebuit să-l scrieți în sarcina anterioară Capitolul Arhitecturi de computere paralele Viteza computerelor este din ce în ce mai rapidă, dar cerințele impuse acestora sunt în continuă creștere Astronomii încearcă să modeleze întreaga istorie a universului de la Big Bang până în zilele noastre Farmacistii ar dori sa dezvolte noi medicamente folosind computere fara a sacrifica legiuni de sobolani de laborator Proiectanții de aeronave ar putea obține rezultate mai bune dacă, în loc să construiască tuneluri de vânt uriașe, și-ar modela proiectele pe un computer Pe scurt, oricât de puternice sunt computerele, capacitățile lor nu vor fi niciodată suficiente pentru a rezolva multe probleme nebanale (în special științifice, tehnice și industriale) Deși frecvența ceasului crește constant, performanța bazei elementului nu poate fi crescută la nesfârșit Principala problemă rămâne viteza luminii - este imposibil să faci protonii și electronii să se miște mai repede Datorită transferului ridicat de căldură, computerele s-au transformat în aparate de aer condiționat de înaltă tehnologie În cele din urmă, pe măsură ce tranzistoarele devin tot mai mici, în cele din urmă va veni un moment în care fiecare tranzistor va fi format din mai mulți atomi, astfel încât legile mecanicii cuantice (cum ar fi principiul incertitudinii lui Heisenberg) pot deveni o problemă majoră Drept urmare, pentru a putea rezolva probleme mai complexe, dezvoltatorii au apelat la calculatoare paralele (denumite în continuare computere paralele) Este imposibil să construiești un computer cu un procesor și un timp de ciclu de , ns, dar este posibil să construiești un computer cu de procesoare, fiecare cu un timp de ciclu de ns Și deși viteza fiecărui procesor în al doilea caz este evident scăzută, teoretic ar trebui să obținem performanța necesară Paralelismul poate fi introdus la diferite niveluri La cel mai de jos nivel, poate fi implementat într-un procesor prin pipelining și o arhitectură superscalară cu mai multe blocuri funcționale Paralelismul ascuns poate fi realizat prin prelungirea semnificativă a cuvintelor din comenzi Prin funcții suplimentare, puteți "învăța" procesorul să proceseze mai multe fire de execuție de program în același timp În cele din urmă, puteți instala mai multe procesoare pe același cip Cu toate acestea, toate aceste tehnici luate împreună pot îmbunătăți performanța de maximum ori în comparație cu soluțiile secvenţiale clasice La nivelul următor, este posibil să se introducă în sistem plăci CPU externe cu capacități de calcul îmbunătățite De obicei, procesoarele plug-in implementează funcții speciale, cum ar fi procesarea pachetelor de rețea, procesarea media, criptografia etc Performanța aplicațiilor specializate datorită acestor funcții poate fi mărită de K) ori Pentru a îmbunătăți performanța cu un factor de o sută, o mie sau un milion, mai multe procesoare trebuie reunite și interacționate eficient Acest principiu este implementat sub forma unor sisteme mari multiprocesoare și multicalculatoare (calculatoare cluster) Desigur, combinarea a mii de procesoare într-un singur sistem creează noi probleme care trebuie rezolvate În cele din urmă, recent a devenit posibilă integrarea unor organizații întregi prin intermediul internetului Ca rezultat, se formează rețele de calcul distribuite slab conectate, sau matrice (grile) Astfel de sisteme abia încep să se dezvolte, dar potențialul lor este foarte mare Atunci când două procesoare sau elemente de procesare sunt la rând și fac schimb de cantități mari de date cu întârzieri reduse, ele sunt numite strâns cuplate În consecință, atunci când zilele procesorului sau ale elementelor de procesare sunt situate departe unele de altele și fac schimb de cantități mici de date cu întârzieri mari, erorile se numesc cuplate vag În acest capitol vom discuta principii pentru dezvoltarea sistemelor acestor forme de paralelism și luați în considerare o serie de exemple Începând cu sistemele puternic cuplate, care se caracterizează prin paralelism pe cip, vom trece treptat la sistemele slab cuplate! iar în partea finală a capitolului vom vorbi despre sistemele de calcul distribuite O gamă aproximativă de subiecte luate în considerare este ilustrată în Fig Sisteme puternic cuplate Sisteme slab cuplate "a B C D E Orez Paralelismul intraprocesor (a); coprocesor (b); multiprocesor (" multicomputer (r); sistem de calcul distribuit slab cuplat (e) Paralelismul este în mod constant un subiect de discuții aprinse, iar în legătură cu acest capitol există neobișnuit de multe referințe - în principal la lucrări recente pe această temă Referințe suplimentare la lucrări cu caracter introductiv pot fi găsite în secțiunea relevantă a capitolului paralelism intraprocesor O modalitate evidentă de a crește performanța unui cip este de a-l face să efectueze mai multe operațiuni pe unitatea de timp În această secțiune, vom analiza câteva dintre tehnicile de îmbunătățire a vitezei de paralelism pe cip, cum ar fi paralelismul la nivel de instrucțiuni, multithreading și procesoare multiple pe un cip Toate aceste metode, deși diferite unele de altele, într-o măsură sau alta ajută la rezolvarea problemei Ele sunt legate de principiul de bază - "comprimarea" operațiilor în timp Paralelism la nivel de instruire Paralelismul de nivel scăzut se realizează, în special, prin apelarea mai multor instrucțiuni într-un ciclu de ceas Procesoarele care implementează acest principiu se împart în două categorii: superscalare și VLIW Ambele au fost deja menționate în capitolele anterioare, dar acum este util să repetam acest material Schema procesorului superscalar este prezentată în fig În cele mai comune configurații, o instrucțiune trebuie să fie gata pentru execuție la un anumit punct al conductei Procesoarele superscalare sunt capabile să apeleze mai multe instrucțiuni într-un singur ciclu de ceas Numărul de instrucțiuni efectiv apelate depinde atât de designul procesorului, cât și de situația actuală Limitările hardware dictează numărul maxim de comenzi care pot fi apelate în același timp - de obicei de la două la șase În plus, dacă o instrucțiune necesită un bloc funcțional indisponibil sau rezultatul unei alte instrucțiuni care nu a fost încă primită, o astfel de instrucțiune nu va fi apelată chiar dacă este posibil fizic Un alt tip de paralelism la nivel de instrucțiune este implementat în procesoarele cu un cuvânt de instrucțiune foarte lung (Ver Long Instruction Word, VLIW) În implementarea lor originală, sistemele VLIW prezentau într-adevăr cuvinte lungi cu instrucțiuni care accesau mai multe blocuri funcționale De exemplu, luați în considerare transportorul prezentat în Fig , a Include cinci blocuri funcționale și este capabil să execute simultan două operații întregi, o operație în virgulă mobilă, o instrucțiune de încărcare și o instrucțiune de salvare O instrucțiune a acestui sistem VLIW conține cinci opcode și cinci perechi de operanzi - un cod și o pereche pentru fiecare bloc funcțional Ținând cont de faptul că codul de operare are biți, registrul - biți, iar celula de memorie - de biți, lungimea totală a comenzii poate ajunge la de biți, ceea ce, vedeți, este mult Cu toate acestea, această decizie a fost considerată nereușită Cert este că nu toate comenzile au putut accesa blocurile funcționale corespunzătoare, ca urmare, operațiunile goale fără sens au apărut din abundență (Fig , b) În sistemele moderne VLIW, ar trebui furnizat un mecanism pentru marcarea pachetelor de comenzi, de exemplu, bitul "terminare a pachetului" poate fi utilizat pentru aceasta (Fig , c) Procesorul poate selecta și rula întregul pachet Sarcina de a pregăti pachete de comenzi care pot fi executate împreună este rezolvată de compilator Operare gol Comanda VLIW Marcator de sfârșit de legare Pachet V Orez Conducta procesorului (a); secvența de comenzi VLIW ( ); flux de comandă cu pachete marcate (c) De fapt, în sistemele VLIW, soluția la problema compatibilității instrucțiunilor este transferată din timpul de execuție în etapa de compilare Ca rezultat, hardware-ul este simplificat și mai ieftin De asemenea, deoarece nu există limite de timp dificile în operarea compilatorului*, lanțurile de comandă sunt formate mai semnificativ decât dacă s-ar întâmpla în timpul execuției Din păcate, este foarte greu de pus în practică o astfel de transformare radicală a arhitecturii procesorului, ceea ce este confirmat de răspândirea mai mult decât moderată a procesorului Itanium Este demn de remarcat faptul că paralelismul la nivel de instrucție nu este singura formă posibilă de paralelism de nivel scăzut Există și paralelism la nivelul memoriei, care presupune executarea simultană a mai multor operații în memorie [Chou et al , ] ilava despre arhitecturi paralele de calculatoare Procesor TriMedia VLIW În capitolul , folosind procesorul Itanium ca exemplu, am întâlnit deja arhitectura VLIW Acum haideți să facem cunoștință cu un alt procesor VLIW - TriMedia produs de Philips TriMedia este un procesor încorporat pentru imagini, dispozitive audio și video precum playere CD, DVD și MP , recordere CD și DVD, televizoare interactive, camere digitale, camere video etc Având în vedere specializarea, nu este nimic surprinzător în numeroasele diferențe dintre TriMedia și Itanium - un procesor de uz general pentru servere de înaltă performanță O comandă TriMedia poate include până la cinci operațiuni În condiții complet optime, o instrucțiune este rulată pe ciclu de ceas și sunt selectate cinci operații Viteza nominală de ceas a procesorului este de sau MHz, dar întrucât se pot executa până la cinci operații într-un ciclu, viteza reală este de cinci ori mai mare În prezentarea ulterioară, vom trece de la caracteristicile implementării procesorului TM Alte versiuni de TriMedia au o serie de diferențe minore Comanda standard TriMedia este prezentată în fig Instrucțiunile variază în natură, de la instrucțiuni obișnuite cu numere întregi de , și de biți la instrucțiuni în virgulă mobilă IEEE și instrucțiuni de procesare media paralelă Execuția a cinci operații pe ciclu și disponibilitatea comenzilor pentru procesarea paralelă a datelor multimedia permit procesorului TriMedia să decodeze programatic streaming video digital provenit de la o cameră video, păstrând dimensiunea și rata de cadre originale Slot Slot Slot Slot Funcționare slot Adăugați Shift Multimedia Încărcare Salvare Echipă Orez Comanda TriMedia standard cu cinci operații TriMedia folosește memoria organizată pe octeți și mapează registrele I/O cu spațiul de memorie Jumătate de cuvinte ( biți) și cuvinte întregi ( de biți) sunt aliniate pe granițele naturale Ordinea octetilor poate fi mare sau mare, în funcție de bitul cuvântului de stare a programului setat de sistemul de operare Acest bit definește mecanismul de transfer de date pentru operațiunile de încărcare și stocare între memorie și registre Procesorul oferă un cache asociat cu căi partajat cu aceeași lungime de linie ( de octeți) în memoria cache de instrucțiuni și date Capacitatea cache-ului de instrucțiuni este de KB; capacitate cache de date - KB Există de registre universale pe de biți Valorile registrelor R și R sunt egale cu zero și, respectiv, unu hardware Restul de de registre sunt echivalente din punct de vedere funcțional și pot fi utilizate în orice scop În plus, sunt furnizate patru registre specializate pe de biți: un numărător de programe, un registru de cuvinte de stare a programului și două registre asociate întreruperilor În cele din urmă, un registru de de biți numără numărul de cicluri de procesor de la ultima resetare La o frecvență de ceas de MHz, ciclul complet al contorului este de de ani In-CPU Paralelism oѵo Procesorul Trimedia TM are blocuri funcționale AND concepute pentru a efectua operații aritmetice, logice și de control (există și un bloc de control cache, dar nu îl vom lua în considerare) Toate sunt enumerate în tabel Primele două coloane oferă numele blocului și o scurtă descriere a funcțiilor pe care acesta le îndeplinește A treia coloană indică numărul de copii hardware ale blocului A patra coloană conține valoarea așteptării (mai precis, numărul de cicluri) până la finalizarea operației În acest context, este util să rețineți că toate blocurile funcționale, cu excepția blocurilor rădăcină pătrată și diviziune în virgulă mobilă, sunt canalizate Deși așteptarea vă spune cât timp trebuie să așteptați înainte de a finaliza operația, nu trebuie să uitați că în fiecare nou ciclu puteți începe noi operațiuni Astfel, fiecare dintre cele trei comenzi consecutive poate conține două operații de încărcare, ceea ce înseamnă că șase operațiuni de încărcare pot fi simultan în diferite etape de execuție Tabelul Blocurile funcționale TM indicând numărul lor, întârziere și sloturi de comandă potrivite Bloc Descriere # Așteptați b Operaţii cu constante Operaţii cu adresare directă e Da Da Da Da Da Integer ALU -bit Aritmetică și logică Da Da Da Da Da Schimbări Schimbări pe mai mulți biți Da Da Da Da Da Încărcarea și salvarea accesărilor în memorie Da Da Înmulțirea întregului și în virgulă mobilă Înmulțirea întregului și în virgulă mobilă pe de biți Da Da ALU în virgulă mobilă Aritmetică în virgulă mobilă Da Da Comparaţie în virgulă mobilă Operaţii de comparare în virgulă mobilă Da Rădăcina pătrată și împărțirea numerelor în virgulă mobilă Împărțirea și rădăcina pătrată a numerelor în virgulă mobilă Da Gestionarea fluxului de lucru pentru tranziții Da Da Da DSP ALU Aritmetică multimedia (două cuvinte de biți sau patru de biți) Da Da Da Multiplicator pentru DSP Multiplicarea datelor multimedia (două cuvinte de biți sau patru de biți) Da Da o' Chimpschier Architecture În cele din urmă, ultimele șase coloane definesc alocarea comenzilor către blocurile funcționale De exemplu, operațiunile de comparare cu virgulă mobilă pot fi efectuate numai în al treilea slot de comandă Blocul funcțional de operare constantă este utilizat atunci când se efectuează operații de adresare directă, cum ar fi încărcarea unui număr dintr-un câmp operațional într-un registru ALU întreg efectuează adunări, scăderi, operații logice standard și operațiuni de împachetare și dezambalare Blocul de deplasare poate efectua deplasări de registru cu numărul specificat de biți în ambele direcții Blocul de încărcare și stocare citește cuvintele din memorie în registre și le scrie înapoi În general, TriMedia este un procesor RISC cu funcționalitate avansată, astfel încât operațiunile normale sunt efectuate cu registre, iar accesările la memorie sunt efectuate folosind un bloc funcțional de încărcare și stocare Transmisia se poate face pe , sau de biti La executarea comenzilor aritmetice și logice, memoria nu este accesată Blocul de multiplicare efectuează operații atât pe numere întregi, cât și pe numere în virgulă mobilă Următoarele trei blocuri sunt responsabile pentru adunarea și scăderea în virgulă mobilă, compararea, rădăcinile pătrate și împărțirea Operațiile de salt sunt executate de blocul funcțional de salt Tranziția este urmată de o întârziere fixă de trei cicluri, timp în care sunt executate întotdeauna trei instrucțiuni (adică până la operații) Acest lucru se întâmplă chiar și cu salturi necondiționate În cele din urmă, ajungem la două blocuri concepute pentru a efectua operațiuni multimedia speciale De fapt, operațiunile multimedia sunt efectuate de un procesor de semnal digital (Digital Signal Processor, DSP) Trebuie remarcat imediat că, spre deosebire de operațiile cu numere întregi bazate pe aritmetica complementului a doi, operațiile multimedia folosesc aritmetica saturată Dacă rezultatul unei operații nu poate fi exprimat din cauza unui depășire, în loc să se arunce o excepție sau să se întoarcă ca rezultat gunoi, se înlocuiește cel mai apropiat număr valid De exemplu, pentru numerele de biți fără semn, adăugarea a și ar duce la Deoarece unele operațiuni și sloturi de comandă sunt incompatibile, este obișnuit să existe mai puțin de cinci operații într-o comandă Dacă un anumit slot nu este utilizat, acesta trebuie comprimat pentru a minimiza consumul de spațiu Operațiile prezente în instrucțiune pot dura , sau de biți În funcție de numărul de operații conținute efectiv într-o comandă TriMedia, dimensiunea acesteia variază de la la de octeți (inclusiv supraîncărcarea de dimensiune fixă) Operațiile incluse într-o comandă TriMedia nu sunt verificate pentru compatibilitate în timpul execuției Prin urmare, operațiunile sunt executate chiar dacă sunt incompatibile, ceea ce generează un rezultat incorect Decizia de a abandona controalele a fost luată de dezvoltatori pentru a economisi timp și tranzistori În procesoarele Core i se efectuează verificări de compatibilitate pentru operațiile superscalare, totuși, ca urmare, soluția devine mai complicată, costurile de timp cresc, iar numărul de tranzistori utilizați crește În TriMedia, sarcina de a planifica Cunoștințele sunt transferate către compilator, care, fără constrângeri de timp nejustificate, poate optimiza plasarea operațiilor în cuvintele de instrucțiuni Cu toate acestea, dacă este necesar un bloc funcțional indisponibil pentru a executa o operație, întreaga comandă trebuie să aștepte până când devine din nou disponibilă La fel ca Itanium , operațiunile TriMedia sunt predictive Fiecare operație (cu două excepții minore) specifică un registru care trebuie verificat înainte de a executa operația respectivă Dacă bitul cel mai puțin semnificativ al acestui registru este setat, operația este executată; în caz contrar, se omite Fiecare dintre cele cinci (sau mai puține) tranzacții este prezisă individual Iată un exemplu de predicție a unei operații juvenile: IF R IADD R j R -> R Aici se verifică registrul R , iar dacă valoarea bitului său cel mai puțin semnificativ este egală cu unu, conținutul registrelor R și R este adăugat și stocat în R Operația poate fi făcută necondiționată folosind R ca registru de predicat (valoarea sa este întotdeauna ) Registrul R (zero hardware) face operația goală Operațiunile multimedia din TriMedia sunt împărțite în grupuri enumerate în tabel Multe dintre aceste operații folosesc tăierea, o tehnică în care un operand este "condus" într-un anumit interval pe baza valorilor minime sau maxime ale operanzilor din afara acelui interval Tăierea este disponibilă pentru operanzi pe biți, biți și de biți De exemplu, ca urmare a valorilor de tăiere de la la în intervalul de la la , rămân valori de la la Operațiile de tăiere sunt efectuate în grupul de tăiere Tabelul Principalele grupuri de operațiuni specializate în TriMedia Descrierea Grupului Decuparea Decuparea de patru octeți sau două jumătăți de cuvinte Obține valoare absolută (DSP) Obține valoare absolută, obține semn, decupează Adăugare (DSP) Adăugare semnată de valori cu tăiere Scăderea (DSP) Scăderea valorilor cu semn și tăiere Înmulțire (DSP) Înmulțirea valorilor cu semn și tăiere Obține minimum și maxim Obține minim sau maxim de patru n octeți Comparație Octet-cu-octet Comparație a două registre Shift Schimbați o pereche de operanzi pe biți Suma produselor Suma semnată a produselor de sau biți Fuzionarea, împachetarea, schimbarea octetilor și manipularea jumătate de cuvânt Medie pătratică octet cu octet Medie pătratică octet cu octet fără semn continuarea L Tabelul (continuare) Descrierea Grupului Medie pe octeți Media pe octeți cu patru elemente, fără a ține cont de semn Byte Multiply Înmulțiți valori de biți fără semn Estimarea mișcării Însumarea nesemnată a valorilor absolute semnate de biți Diverse Alte operatii aritmetice Următoarele cinci grupuri din tabel combina operații cu operanzi de diferite dimensiuni, prevăzând tăierea rezultatelor într-un anumit interval Operațiile de grup get min și max analizează două registre și găsesc valorile minime și maxime pentru fiecare octet În mod similar, într-un grup de comparație, două registre sunt tratate ca patru perechi de octeți, fiecare dintre acestea fiind comparat cu ceilalți Operațiunile multimedia sunt rareori efectuate pe numere întregi de de biți Acest lucru se datorează faptului că imaginile sunt de obicei construite în modelul de culoare RGB (roșu, verde, albastru) cu valori de pixeli roșu, verde și albastru de biți La procesarea (de exemplu, comprimarea) o imagine, aceasta este exprimată în trei componente, câte una pentru fiecare culoare (în spațiu RGB) sau într-o formă echivalentă logic (în spațiu YUV, despre care vom discuta în continuare) În orice caz, cea mai mare parte a calculelor este efectuată pentru matrici dreptunghiulare de numere întregi fără semn pe biți Pentru a procesa eficient astfel de matrici, TriMedia oferă numeroase operațiuni specializate Ca exemplu simplu, luați în considerare colțul din stânga sus al unei matrice de valori de biți stocate în memoria big endian (Figura a) Blocul x din acest colț conține valori de biți de la A la P Să presupunem că rezultatul transpunerii imaginii este matricea prezentată în Fig , b Cum se obține acest rezultat? ZIZY registrul a b Orez - - Matricea elementelor de biți (a); matricea transpusă (b); matricea originală transferată în patru registre (c); transpune matricea in patru registre (r) Transpunerea se poate face în operații, fiecare încarcă octeții în registre noi, după care trebuie efectuate încă operații pentru a plasa acei octeți la locul lor (rețineți că cei patru octeți diagonali nu sunt mutați în timpul transpunerii) Problema este că această schemă necesită de operații de memorie lungi și consumatoare de timp Există o altă cale În primul rând, sunt efectuate patru operații, fiecare încarcând un cuvânt în patru registre diferite - de la R la R (așa cum se arată în Fig , c) Apoi, folosind operații de mascare și deplasare, cele patru cuvinte rezultate sunt combinate și se formează rezultatul dorit (Fig , d) La sfârșitul cuvântului sunt stocate în memorie În ciuda reducerii semnificative a numărului de accesări la memorie (de la la ), eficiența acestei metode nu este ridicată din cauza mascării și deplasării - este nevoie de prea multe operațiuni pentru a extrage și a pune toți octeții în locurile potrivite TriMedia are o metodă mai bună Mai întâi, patru cuvinte sunt plasate în registre În acest caz, rezultatul este format nu prin mascare și deplasări, ci prin operații specializate de extragere și plasare octeți în registre Astfel, opt operații multimedia speciale și același număr de accesări la memorie sunt suficiente pentru a transpune o imagine Codul începe cu două operații de încărcare în segmentele și pentru a plasa cuvinte în registrele R și R , urmate de operații similare pentru a încărca în registrele R și R , Echipele care conțin aceste operațiuni pot folosi Segmentele , și în orice alt scop După încărcarea tuturor cuvintelor, operații multimedia speciale, împreună cu două operațiuni de salvare, pot fi împachetate în două comenzi care formează rezultatul În cele din urmă, sunt necesare doar instrucțiuni, din cele de sloturi rămânând disponibile pentru alte operațiuni, ceea ce înseamnă că numărul de sloturi corespunde cu aproximativ trei instrucțiuni pentru rezolvarea problemei Alte operațiuni multimedia sunt la fel de eficiente Datorită acestor operațiuni, precum și împărțirii comenzii în cinci sloturi, procesorul TriMedia se dovedește a fi un instrument extrem de eficient pentru procesarea datelor multimedia Multithreading în procesor Toate procesoarele moderne pipeline au aceeași problemă - dacă un cuvânt nu este găsit în cache-urile de la primul și al doilea nivel atunci când se solicită memorie, durează mult timp pentru a încărca acest cuvânt în cache, timp în care pipeline-ul este inactiv O tehnică pentru rezolvarea acestei probleme se numește multithreading pe cip Acesta permite procesorului să gestioneze simultan mai multe fire de execuție de program și, prin urmare, să mascheze timpii de inactivitate Pe scurt, principiul multithreading-ului poate fi enunțat după cum urmează: dacă firul de program este blocat, procesorul se poate asigura că hardware-ul este încărcat complet prin pornirea firului de program Ideea de bază este simplă, este implementată în diferite moduri, pe care le vom lua în considerare Prima dintre acestea, numită multithreading cu granulație fină, în raport cu un procesor capabil să apeleze o instrucțiune pe ciclu de ceas, este ilustrată în Fig Pe fig , a-c arată trei fluxuri de program (L, B, C) corespunzătoare la cicluri de mașină În timpul primului ciclu, firul A execută comanda L Deoarece această comandă se finalizează într-un ciclu, atunci când are loc al doilea ciclu, comanda D este pornită Accesul său la memoria cache de primul nivel nu reușește, așa că trec două cicluri înainte ca cuvântul dorit să fie preluat din memoria cache de nivel al doilea Execuţie Capitolul Arhitecturi de calculatoare paralele firul continuă în bucla După cum se arată în figură, firele B și C sunt, de asemenea, în mod regulat inactiv Ca parte a acestei soluții, următoarea comandă nu este apelată până când cea anterioară nu este finalizată Mai precis, în prezența unui contor de lovituri complex, în unele cazuri acest lucru este permis, dar pentru simplitate excludem o astfel de posibilitate A A A A A A A A A B C A B C A B C A B C B B B B B B B B C C C C C C C C A A B C C C C A A A Ciclu - Ciclu - Orez Trei fluxuri de programe Pătratele goale înseamnă inactiv așteptarea datelor din memorie (a-b); multithreading cu granulație fină (d); multithreading grosier (d) Cu multithreading cu granulație fină, timpul de inactivitate este mascat prin executarea firelor "într-un cerc", adică diferite fire sunt lansate în cicluri adiacente (Fig , d) Până la sosirea ciclului de timp , accesul la memorie inițiat de instrucțiunea A s-a încheiat, deci chiar dacă instrucțiunea A are nevoie de rezultatul instrucțiunii A , pornește În acest caz, durata maximă de inactivitate este de două cicluri, ceea ce înseamnă că, dacă există trei fire de execuție de program, operațiunea de inactivitate încă se finalizează la timp Cu un timp inactiv de cicluri, ar fi necesare fire de program pentru funcționarea continuă etc Deoarece firele de execuție diferite ale programului nu sunt legate între ele în niciun fel, fiecare dintre ele are nevoie de propriul set de registre Trebuie specificat pentru fiecare instrucțiune apelată, iar apoi hardware-ul va ști ce set de registre să acceseze atunci când este necesar Prin urmare, numărul maxim de fire de execuție simultană a programului este determinat în timpul dezvoltării cipului Cauzele timpului de nefuncționare nu se limitează la accesările la memorie Uneori, executarea instrucțiunii următoare necesită rezultatul instrucțiunii anterioare, care nu a fost încă evaluată În alte cazuri, comanda nu poate fi apelată deoarece urmează o ramură condiționată a cărei direcție nu este încă cunoscută Regula generală este formulată după cum urmează: dacă există k pași în conductă, dar cel puțin k fire de execuție de program pot fi lansate într-un cerc, atunci mai mult de o comandă nu pot fi executate într-un fir la un moment dat, deci conflicte între ele sunt excluse Într-o astfel de situație, procesorul poate rula la viteză maximă fără repaus Desigur, numărul de fire disponibile nu este întotdeauna egal cu numărul de etape de conductă, așa că unii dezvoltatori preferă o tehnică numită multithreading cu granulație grosieră, care este ilustrată în Fig , e În acest caz, firul de execuție al programului A continuă să fie executat secvențial, până la timpul inactiv În acest caz, se pierde un ciclu Apoi există o comutare la prima comandă a fluxului de program B (fii) Deoarece această comandă intră imediat în starea inactivă, în bucla se utilizează Paralelism în CPU multithreadingul cu granulație grosieră cu un singur ciclu ar părea a fi inferioară multithreadingului cu granulație fină în ceea ce privește eficiența sa, dar are un avantaj semnificativ - datorită unui număr mai mic de fire de execuție a programului, reduceți semnificativ consumul de resurse ale procesorului Cu un număr insuficient de fluxuri active, această tehnică este optimă Pe baza descrierii noastre, multithreadingul grosier comută pur și simplu între fire, dar acesta nu este singurul curs posibil de acțiune De asemenea, este posibil să comutați imediat (a comenzilor care ar putea cauza timp inactiv (de exemplu, salvarea încărcării și salturi) fără a afla dacă timpul de inactivitate este de fapt planificat Această strategie vă permite să comutați mai devreme decât de obicei (imediat după ce instrucțiunea este planificată) decodificat) și elimină bucle nesfârșite Cu alte cuvinte, execuția continuă până când se descoperă posibilitatea unei probleme, după care urmează o comutare Indiferent de varianta multithreading utilizată, este necesar să urmăriți cumva apartenența fiecărei operații la unul sau la altul fir de program În cadrul multithreadingului cu granulație fină, pentru fiecare operație, ID-ul firului este trecut prin glisare, astfel încât atunci când vă deplasați de-a lungul conductei | r, apartenența sa este fără îndoială Multithreading la scară largă oferă posibilitatea de a curăța conducta înainte de a începe fiecare fir de execuție, dar următorul În acest caz, identitatea firului de execuție curent este clar definită Desigur, această tehnică este eficientă numai dacă pauzele dintre comutare sunt mult mai lungi decât timpul necesar pentru eliberarea transportorului Toate cele de mai sus se aplică procesoarelor care nu pot apela mai mult de o instrucțiune pe ciclu de ceas Cu toate acestea, știm că această limitare nu este relevantă pentru procesele moderne În ceea ce privește imaginea din fig І presupunem că procesorul poate apela două instrucțiuni pe ciclu, o declarație despre imposibilitatea de a rula instrucțiuni ulterioare în cazul simplu; cel precedent rămâne în vigoare Figura a ilustrează mecanismul multithreadingului micromodular într-un procesor superscalar dublu După cum puteți vedea în firul A, primele două comenzi sunt executate în timpul primului ciclu, dar în firul B, doar o comandă este rulată în al doilea ciclu А С AZ В СЗ А ВЗ С А В С A C A C B C A B C Ciclu - A A B £ NW AZ A B C A A B B A C C A C A B B Ciclul -► b ÎN C A LA C A VZ LA LA C NV AZ A C A A LA LA LA C Ciclu - V Pe fig , arată implementarea multithreadingului grosier într-un procesor dual cu un planificator static care elimină bucle infinite atunci când instrucțiunile inactiv Aici, firele de execuție ale programului sunt executate pe rând, procesorul apelează câte două instrucțiuni în fiecare fir, până când detectează timpul de inactivitate; în ciclul următor după timpul de inactivitate, începe execuția firului următor În procesoarele superscalare, există o altă modalitate de a organiza multithreading - așa-numitul multithreading sincron (multithreading simultan), care este ilustrat în Fig , c Aceasta tehnica este o imbunatatire a multithreading-ului cu granulatie grosiera, in care fiecare thread de program poate rula doua instructiuni per clock, dar atunci cand este inactiv, instructiunile urmatorului thread sunt rulate pentru a asigura utilizarea completa a procesorului Cu multithreading sincron, toate blocurile funcționale sunt încărcate complet Dacă comanda nu poate fi pornită deoarece blocul funcțional este ocupat, este selectată comanda dintr-un alt fir Figura presupune că instrucțiunea B este inactivă în bucla AND, astfel încât instrucțiunea C este pornită în bucla Pentru mai multe informații despre multithreading, a se vedea [Gebhart et al , ; Wingkei et al , ] Multithreading în Cor i După ce s-a ocupat de teoria multithreading-ului, luați în considerare un exemplu practic - Core i La începutul anilor , procesoare precum Pentium nu mai asigurau creșterea performanței de care Intel avea nevoie pentru a menține vânzările Chiar și după ce procesorul Pentium a intrat în producție, inginerii Intel au continuat să lucreze la îmbunătățirea performanței acestuia fără a aduce modificări interfeței software Au apărut rapid cinci moduri simple Creșterea frecvenței ceasului Plasarea a două procesoare pe un cip Introducerea de noi blocuri funcționale Prelungirea transportorului Folosind multithreading Cea mai evidentă modalitate de a îmbunătăți performanța este de a crește viteza ceasului fără a modifica alți parametri De regulă, fiecare model de procesor ulterior are o viteză de ceas puțin mai mare decât precedentul Din păcate, cu o creștere în linie dreaptă a vitezei de ceas, dezvoltatorii se confruntă cu două probleme: un consum crescut de energie (care este relevant pentru laptopuri și alte dispozitive de calcul care funcționează cu baterii) și supraîncălzire (care necesită radiatoare mai eficiente) A doua metodă - plasarea a două procesoare pe un cip - este relativ simplă, dar presupune dublarea suprafeței ocupate de cip Dacă fiecare procesor este prevăzut cu propria sa memorie cache, numărul de cipuri per wafer se reduce la jumătate, dar asta înseamnă și costul de producție de două ori Dacă este furnizată o cache partajată pentru ambele procesoare, o creștere semnificativă a suprafeței ocupate poate fi evitată, dar în acest caz apare o altă problemă - cantitatea de memorie cache per procesor este redusă la jumătate, iar acest lucru afectează inevitabil performanța În plus, în timp ce aplicațiile de server de înaltă performanță pot utiliza pe deplin resursele mai multor procesoare, programele desktop obișnuite au mult mai puțin paralelism intern Adăugarea de noi blocuri funcționale nu este dificilă, dar este important să găsim un echilibru aici Ce rost are o duzină de ALU dacă cipul nu poate emite comenzi către conductă la o rată care să poată încărca toate acele blocuri? O conductă cu un număr crescut de etape, capabilă să împartă sarcinile în segmente mai mici și să le proceseze în perioade scurte de timp, pe de o parte, îmbunătățește performanța, pe de altă parte, crește consecințele negative ale previziunii greșite a tranzițiilor, ratelor de cache, întreruperi și alte evenimente care perturbă procesarea normală a instrucțiunilor de curs în procesor În plus, pentru a realiza pe deplin capacitățile conductei extinse, este necesară creșterea frecvenței de ceas, iar acest lucru, după cum știm, duce la un consum crescut de energie și la disiparea căldurii În cele din urmă, puteți implementa multithreading Avantajul acestei tehnologii este introducerea unui thread software suplimentar care permite) aducerea în uz a acelor resurse hardware care altfel ar fi inactive Pe baza rezultatelor studiilor experimentale, dezvoltatorii Intel au descoperit că o creștere cu % a suprafeței cipului atunci când se implementează multithreading pentru multe aplicații oferă o creștere a performanței de % Primul procesor Intel care a suportat multithreading a fost Cheop din Ulterior, începând cu , GHz, multithreading a fost introdus în linia Pentium (inclusiv Cope I ) Intel numește implementarea multithreading-ului în procesoarele sale hyperthreading Principiul principal al hyperthreading-ului este executarea simultană a două fire de execuție de program (sau procese - procesorul nu face distincție între procese și fire de execuție) Sistemul de operare tratează procesorul hyper-threaded Coge i ca pe un complex cu două procesoare cu cache partajate și memorie principală Sistemul de operare efectuează planificarea pentru fiecare fir de program separat Astfel, două aplicații pot rula în același timp De exemplu, un demon de e-mail poate trimite sau primi mesaje în fundal în timp ce utilizatorul interacționează cu o aplicație interactivă - adică demonul și programul utilizatorului se execută în același timp, ca și cum două procesoare ar fi disponibile pentru sistem Programele de aplicație capabile să se execute în mai multe fire pot folosi atât "procesoare virtuale" De exemplu, programele de editare video permit utilizatorilor să aplice filtre pentru toate cadrele Astfel de filtre corectează luminozitatea, contrastul, echilibrul de culoare și alte proprietăți ale cadrelor Într-o astfel de situație, programul poate atribui unui procesor virtual să proceseze cadrele pare, iar altul să proceseze cadrele impare În acest caz, cele două procesoare vor funcționa complet independent unul de celălalt Deoarece firele de execuție software accesează aceleași resurse hardware, este necesară coordonarea acestor fire În contextul hyperthreading-ului, dezvoltatorii Intel au identificat patru strategii utile de gestionare a partajării resurselor: duplicarea resurselor și partajarea hard, threshold și completă a resurselor Să aruncăm o privire asupra acestor strategii Să începem cu duplicarea resurselor După cum știți, unele resurse sunt duplicate pentru a organiza fluxurile de programe De exemplu, deoarece fiecare fir de program are nevoie de control individual, este necesar un al doilea contor de program În plus, este necesară introducerea unui al doilea tabel pentru maparea registrelor arhitecturale (EAX, EBX etc ) la registrele fizice; controlerul de întrerupere este duplicat în mod similar, deoarece procesarea întreruperii pentru fiecare fir se face individual Aceasta este urmată de o tehnică de partiţionare solidă a resurselor (partajarea resurselor partiţionate) între firele de execuţie a programului De exemplu, dacă procesorul are o coadă între două etape funcționale ale conductei, atunci jumătate din sloturi pot fi date firului , cealaltă jumătate firului Partajarea resurselor este ușor de implementat, nu duce la dezechilibru și asigură independența completă a firelor de execuție a programului unul față de celălalt Odată cu separarea completă a tuturor resurselor, un procesor se transformă de fapt în două Pe de altă parte, poate apărea o situație în care un fir de execuție de program nu utilizează resurse care ar putea fi utile celui de-al doilea fir, dar pentru care nu are drepturi de acces Ca urmare, resursele care ar putea fi utilizate altfel sunt inactive Opusul partajării dure este partajarea completă a resurselor În această schemă, orice fir de program poate accesa resursele necesare și sunt deservite în ordinea în care sunt solicitate Să considerăm o situație în care un flux rapid, constând în principal din operații de adunare și scădere, coexistă cu un flux lent, care implementează operații de înmulțire și împărțire Dacă instrucțiunile sunt apelate din memorie mai repede decât sunt efectuate operațiunile de înmulțire și împărțire, numărul de instrucțiuni apelate în firul lent și puse în coadă pe conductă va crește treptat În cele din urmă, aceste comenzi vor umple coada, ca urmare, fluxul rapid se va opri din cauza lipsei de spațiu în el Partajarea completă a resurselor rezolvă problema utilizării suboptime a resurselor partajate, dar creează un dezechilibru în consumul acestora - un fir poate încetini sau opri altul Schema intermediară este implementată în cadrul partajării resurselor de prag Conform acestei scheme, orice fir de program poate primi dinamic o anumită cantitate (limitată) de resurse Când este aplicată resurselor replicate, această abordare oferă flexibilitate fără amenințarea ca unul dintre firele de execuție a programului să fie inactiv din cauza incapacității de a obține resurse Dacă, de exemplu, fiecăreia dintre fire i se interzice să ocupe mai mult de / din coada de comenzi, consumul crescut de resurse de către firul lent nu va interfera cu execuția celui rapid Modelul Hyperthreading I combină diferite strategii de partajare a resurselor Astfel, se încearcă rezolvarea tuturor problemelor asociate fiecărei strategii Dublarea este implementată în raport cu resursele, accesul la care este cerut constant de ambele programe fire de execuție (în special, în ceea ce privește contorul de programe, tabelul de mapare a registrului și controlerul de întrerupere) Dublarea acestor resurse crește aria microcircuitului cu doar % - veți fi de acord că este un preț destul de rezonabil pentru multithreading Resursele care sunt disponibile într-un astfel de volum încât este practic imposibil ca acestea să fie capturate de un singur fir (de exemplu, linii cache) sunt alocate dinamic Accesul la resursele care controlează funcționarea conductei (în special, numeroasele sale cozi) este împărțit - fiecărui fir de program i se acordă jumătate din sloturi Conducta principală a arhitecturii Sandy Bridge implementată în Cor І este prezentată în Fig , ; zonele albe și gri din această ilustrație reprezintă mecanismul de alocare a resurselor între firele de execuție albe și gri ale programului Orez Partajarea resurselor între firele de execuție a programului în microarhitectura Coge După cum puteți vedea, toate cozile din această ilustrație sunt împărțite - fiecărui fir de program îi este alocată jumătate din sloturi Niciunul dintre firele ps nu poate restricționa munca celuilalt Blocul de distribuție și substituție este de asemenea împărțit Resursele planificatorului sunt partajate dinamic, dar pe baza unor valori de prag - astfel, niciunul dintre fire nu poate ocupa toate sloturile cozii Pentru toate celelalte etape ale transportorului, există o separare completă Cu toate acestea, multithreadingul nu este atât de simplu Chiar și această tehnică avansată are dezavantajele ei Partiționarea hard a resurselor nu este asociată cu costuri serioase, dar partiționarea dinamică, în special în ceea ce privește pragurile, necesită monitorizarea consumului de resurse în timpul execuției În plus, în unele cazuri programele funcționează mult mai bine fără multithreading decât cu acesta Să presupunem, de exemplu, că dacă există două fire de execuție de program, fiecare dintre ele are nevoie de / din memoria cache pentru a funcționa corect Dacă ar fi executate pe rând, fiecare ar funcționa rezonabil de bine cu un număr mic de erori de cache (care sunt cunoscute a fi asociate cu supraîncărcare suplimentară) În cazul execuției paralele, ar exista semnificativ mai multe rateuri de cache pentru fiecare, iar rezultatul final ar fi mai rău decât fără multithreading Pentru mai multe informații despre mecanismul multithreading în procesoarele Intel, vezi [Gerber și Binstock, ; Gepner și colab , ] Multiprocesoare cu un singur cip În timp ce multithreading poate oferi îmbunătățiri semnificative de performanță la un cost rezonabil, unele aplicații au nevoie de performanță semnificativ mai mare și multithreading nu este suficient Pentru astfel de aplicații, există scheme multiprocesor Cipurile care acceptă două sau mai multe procesoare sunt utilizate în principal în serverele profesionale și în electronicele de larg consum Despre toate acestea vom vorbi acum Multiprocesoare omogene cu un singur cip Datorită dezvoltării tehnologiei VLSI (Very Large Scale Integrated Circuit), două sau mai multe procesoare puternice pot fi acum instalate pe un singur cip Deoarece aceste procesoare accesează întotdeauna aceleași module de memorie (cache-urile L și L și memoria principală), ele sunt considerate a fi un singur multiprocesor, așa cum am văzut în Capitolul Acestea sunt de obicei instalate în fermele mari de servere web Prin colocarea a două procesoare, separarea resurselor de memorie, a discului și a interfețelor de rețea, performanța serverului poate fi în multe cazuri dublată, iar costul de a face acest lucru va crește într-o măsură mult mai mică (deoarece chiar dacă un multiprocesor costă de două ori mai mult decât un procesor obișnuit, nu uitați că prețul său este doar o mică parte din costul total al sistemului) Există două modele tipice pentru multiprocesoarele mici cu un singur cip În primul dintre ele (Fig , a) există un microcircuit și două conducte - astfel, viteza de execuție a instrucțiunilor se dublează teoretic În a doua soluție (Fig , b), microcircuitul oferă două nuclee independente, fiecare dintre ele conține un procesor cu drepturi depline Un nucleu este un cip mare (cum ar fi un procesor, un controler I/O sau cache) care se află pe un cip ca modul, de obicei împreună cu alte câteva nuclee a b Orez Multiprocesoare cu un singur cip: un cip cu două conducte (a); cip cu două nuclee (b) Prima soluție permite partajarea resurselor (cum ar fi blocuri funcționale) între procesoare; cu alte cuvinte, fiecare procesor poate accesa resurse care nu sunt solicitate de celălalt procesor A doua soluție necesită o modificare a designului microcircuitului și nu prevede mai mult de două procesoare Trebuie remarcat aici că nu este atât de dificil să plasați două sau mai multe nuclee de procesor pe un cip În continuare, pe măsură ce prezentarea avansează, vom reveni la subiectul multiprocesoarelor În acest capitol, acoperim în principal subiecte legate de multiprocesoare bazate pe cipuri cu un singur procesor, dar multe dintre ele se aplică cipurilor cu mai multe procesoare Multiprocesor Sore I cu un singur cip Coge i este un multiprocesor cu un singur cip fabricat cu patru sau mai multe nuclee pe un singur substrat de siliciu Structura de nivel înalt a procesorului Core i este prezentată în fig cache L Procesor IA- Rețea de apel cache L IA- CPU і servere și computere personale În plus, există nenumărate dispozitive intermediare diferite care operează în rețele, inclusiv routere, comutatoare, firewall-uri, servere proxy și sisteme echilibrarea sarcinii În mod curios, aceste sisteme intermediare sunt supuse celor mai severe cerințe - trebuie să asigure transmiterea unui număr maxim de pachete pe secundă În plus, serverelor sunt impuse cerințe serioase, deoarece pentru computerele utilizatorilor, nu există cerințe speciale pentru acestea În funcție de rețea și de pachetul în sine, un pachet care ajunge în rețea pentru transfer, ieșire sau transmitere către o aplicație poate necesita o anumită formă de procesare Procesarea poate include decizia unde să trimiteți pachetul, împărțirea pachetului în părți sau reasamblarea ypritzѵiiiirm PCI Orez Cristal și placa unui procesor de rețea tipic pachete și protocoale), fiecare dintre ele constând dintr-un nucleu RISC (eventual modificat) și o mică memorie internă pentru stocarea programului și a mai multor variabile Există două abordări pentru organizarea controlorilor EIP În cel mai simplu caz, controlerele PPE sunt realizate identice Când un nou pachet ajunge la procesorul de rețea, acesta este transmis controlerului PPE care este în prezent inactiv pentru procesare Dacă nu există controlere PPE libere, puneți pachetul în coadă în memoria SDRAM aflată pe placă, așteptând ca unul dintre controlerele PPE să devină liber Cu o astfel de organizare, conexiunile orizontale prezentate în Fig nu sunt prezente, deoarece controlorii EIP diferiți nu * au nevoie să comunice între ei O altă abordare a organizării controlorilor PPE este o conductă, în care fiecare controlor PPE realizează un pas de procesare și apoi transmite un pointer către pachetul primit următorului controler PPE din conductă Această conductă funcționează aproape în același mod ca și conductele CPU discutate în Capitolul În ambele aranjamente, controlerele PPE sunt complet programabile La procesoarele de rețea mai avansate, controlerele PPE sunt multi-threaded, ceea ce înseamnă că fiecare are mai multe seturi de registre și un registru hardware care indică ce set este în uz Acest lucru permite mai multor programe (adică fire de execuție) să ruleze simultan și să comute între ele pur și simplu prin schimbarea variabilei "setul curent de registru de lucru" Când unul dintre firele de execuție a programului este forțat să aștepte (de exemplu, la accesarea SDRAM, care necesită mai multe cicluri), controlerul PPE poate fi comutat instantaneu la un fir care poate continua să funcționeze Acest lucru permite controlerului PPE să fie foarte încărcat, chiar dacă adesea trebuie să aștepte ca transferurile de date SDRAM sau alte operațiuni externe lente să se finalizeze Pe lângă controlerele PPE, toți procesoarele de rețea au un procesor de control pentru a efectua toate acțiunile care nu au legătură directă cu procesarea pachetelor (de exemplu, actualizarea tabelelor de rutare) De obicei, este un procesor RISC de uz general, a cărui memorie pentru date și comenzi se află pe același cip cu procesorul Mai mult, un procesor de rețea poate avea mai multe procesoare specializate dedicate operațiunilor critice Sunt circuite integrate specifice aplicației (ASIC) foarte mici, capabile să efectueze o singură acțiune simplă, cum ar fi căutarea unei adrese de destinație într-un tabel de rutare Toate componentele procesorului de rețea comunică între ele la viteze multi-gigabit prin una sau mai multe magistrale paralele pe cip Procesarea pachetelor Indiferent dacă procesorul de rețea are o organizare pipeline sau paralelă, fiecare pachet care sosește trece prin mai multe etape de procesare Pentru unele procesoare, aceste etape sunt împărțite în procesare de intrare (procesare de intrare) și procesare de ieșire (procesare de ieșire) Primul grup include operațiuni cu pachete care au venit din exterior (printr-o linie de rețea sau magistrală de sistem), iar al doilea grup include operațiuni cu pachete înainte ca acestea să fie trimise Astfel, fiecare pachet este supus mai întâi procesării de intrare și apoi procesării de ieșire Această împărțire este destul de arbitrară, deoarece unele operațiuni pot fi efectuate în orice etapă (de exemplu, colectarea de informații despre trafic) Vom parcurge acești pași în ordinea în care ar putea fi făcute, dar rețineți că nu trebuie să fie făcute pentru toate pachetele, iar alte secvențe sunt posibile Verificarea sumei de control Dacă un pachet de intrare sosește dintr-o rețea Ethernet, suma sa de control (codul CRC) este recalculată și comparată cu valoarea prezentă în pachet pentru a se asigura că pachetul a fost primit fără erori Dacă ambele valori sunt egale sau dacă nu există un câmp CRC în pachetul Ethemet, suma de control a pachetului IP este calculată și comparată cu valoarea din pachet Acest lucru asigură că pachetul IP nu a fost corupt de un bit rău din memoria expeditorului după ce expeditorul a calculat suma de control pentru pachetul IP Dacă toate verificările sunt trecute, pachetul este trecut pentru procesare ulterioară, în caz contrar, este pur și simplu aruncat Extragerea valorilor câmpului Prin parsare, se determină poziția antetului necesar, iar valorile câmpurilor cheie corespunzătoare acestui antet sunt extrase din pachet Într-un comutator Ethernet, este examinat doar antetul Ethemet; într-un router IP, doar antetul IP Valorile câmpurilor cheie sunt stocate fie în registre (cu organizare paralelă a controlerelor PPE), fie în SRAM (cu organizare pipeline) Clasificarea pachetelor Pachetele sunt clasificate conform unui set de reguli de programare În cel mai simplu caz, pachetele de date sunt separate de pachetele de control, dar separarea este de obicei mult mai subtilă Alegerea căii Majoritatea procesoarelor de rețea au o cale rapidă specială, care este optimizată pentru a transporta o varietate de pachete de date, în timp ce restul pachetelor sunt procesate în felul lor, de obicei prin control procesor leneș În consecință, este selectată fie calea rapidă, fie una dintre căile lente Definirea retelei tinta Pachetele IP conțin o adresă de destinație pe de biți Cu toate acestea, este imposibil (și nedorit) să folosiți un întreg tabel de de intrări pentru a găsi destinatarul fiecărui pachet Prin urmare, partea stângă a adresei conține de obicei adresa rețelei, în timp ce partea dreaptă indică către o singură mașină din acea rețea Lungimea adresei de rețea nu este fixă, astfel încât determinarea acesteia nu este o sarcină banală și este și mai complicată de faptul că sunt permise mai multe opțiuni, dintre care cea mai lungă este considerată corectă În acest pas, este adesea folosit un ASIC Căutare rută După determinarea adresei rețelei țintă dintr-un tabel stocat în SRAM, rezultă care dintre liniile de ieșire trebuie să trimită pachetul Din nou, un ASIC poate fi folosit în acest pas Avarie si montaj Aplicațiile maximizează adesea sarcina utilă (date) pachetelor TCP în încercarea de a reduce numărul de apeluri de sistem, dar atât TCP, IP, cât și Ethernet au limite privind dimensiunea maximă a pachetului Ca o consecință a acestor limitări, poate fi necesar să spargeți pachetele (și, prin urmare, încărcătura utilă) în bucăți înainte de a le trimite și să le reasamblați la capătul de primire Aceste funcții pot fi efectuate de procesorul de rețea Calcule Uneori este necesară efectuarea anumitor calcule complexe asupra datelor, de exemplu, efectuarea compresiei și decompresiei, codificarea și decodarea Aceste acțiuni pot fi transferate către procesorul de rețea Gestionați anteturile Uneori trebuie să adăugați sau să eliminați anteturi, precum și să modificați valorile anumitor câmpuri De exemplu, în antetul IP există un contor al numărului de hopuri pe care pachetul le poate trece înainte de a se autodistruge După trecerea fiecărei tranziții, valoarea contorului trebuie să fie redusă cu unul, iar această funcție poate fi îndeplinită de procesorul de rețea Managementul cozilor Pachetele de intrare și de ieșire trebuie adesea să stea la coadă pentru a fi procesate Dar pentru aplicațiile multimedia, pentru a evita jitterul, este necesar ca întârzierile dintre pachete să nu depășească o anumită valoare În plus, un firewall sau un router poate avea nevoie să redistribuie sarcina de intrare între mai multe linii de ieșire conform anumitor reguli Toate aceste sarcini pot fi rezolvate de procesorul de rețea Generarea de sume de control Pachetele de ieșire trebuie să aibă sume de control Suma de control a pachetelor IP poate fi calculată de procesorul de rețea, în timp ce suma de control a pachetelor Ethernet este, în general, generată de hardware Contabilitate În unele cazuri, este necesar să se contorizeze traficul pe măsură ce acesta trece pachete, mai ales dacă una dintre rețele oferă tranzitul traficului ca serviciu comercial Contabilitatea poate fi gestionată de procesorul de rețea Culegerea de statistici Multe companii ar dori să aibă statistici de trafic: câte pachete au intrat, câte pachete au ieșit, când s-a întâmplat, etc Procesoarele de rețea pot colecta aceste informații Creșterea productivității I Performanța este cea mai importantă caracteristică a procesoarelor de rețea Ce se poate face pentru a-l îmbunătăți? Înainte de a răspunde la această întrebare, este necesar să definim ce este Una dintre metrici este numărul de pachete transmise pe secundă, cealaltă este numărul de octeți transmiși pe secundă Aceste valori au abordări diferite, iar o schemă care funcționează bine cu pachetele mici poate să nu funcționeze bine cu cele mari În special, atunci când transmiteți pachete mici, puteți îmbunătăți considerabil performanța prin accelerarea căutării adresei țintă în tabel, în timp ce, în același timp, atunci când transmiteți pachete mari, acest lucru nu va oferi o creștere vizibilă a performanței Cea mai directă modalitate de a îmbunătăți performanța este creșterea frecvenței de ceas a procesorului de rețea Adevărat, performanța nu crește proporțional cu frecvența, deoarece timpul de acces la memorie și o serie de alți factori afectează În plus, o frecvență mai mare înseamnă că trebuie disipată mai multă căldură De obicei, soluția este creșterea numărului de controlere PPE - această abordare este eficientă în special pentru arhitecturile paralele Creșterea lungimii conductei poate ajuta, de asemenea, dar numai dacă este posibilă împărțirea procesului de procesare a unui pachet în pași destul de simpli O altă abordare este creșterea numărului de procesoare suplimentare specifice aplicației sau de circuite integrate specifice aplicației dedicate anumitor operațiuni costisitoare și solicitate frecvent, dacă astfel de operațiuni sunt efectuate mai eficient în hardware Printre mulți candidați se numără căutări în tabel, sumă de verificare și operațiuni criptografice De asemenea, puteți crește viteza prin reducerea timpului de tranzit al pachetelor în sistem prin introducerea de autobuze suplimentare și creșterea numărului de linii în cele existente În cele din urmă, câștigurile de performanță pot fi obținute de obicei prin înlocuirea cipurilor de memorie (SRAM în loc de SDRAM), dar acest lucru, desigur, afectează costul Desigur, acest lucru nu este tot ce se poate spune despre procesoarele de rețea Pentru mai multe informații vezi [Freitas et al , ; Lin și colab , ; Yamamoto și Nakao, ] GPU-uri A doua zonă de aplicare a coprocesoarelor este procesarea graficelor de înaltă rezoluție (de exemplu, generarea de imagini D) Procesoarele convenționale nu sunt suficient de eficiente pentru calcule complexe cu cantități mari de date Din acest motiv, unele computere personale moderne și majoritatea modelelor în curs de dezvoltare sunt echipate cu co-procesoare speciale de procesare grafică, pe care o parte semnificativă a lucrării poate fi deplasată GPU NVIDIA Fermi O zonă de procesare grafică care crește constant în importanță, vom studia exemplul NVIDIA Fermi, o arhitectură folosită într-o familie de procesoare grafice cu viteze și dimensiuni diferite Arhitectură Coprocesoare procesorul grafic b'erini este prezentat in fig Este format din multiprocesoare de streaming sau SM (Streaming Multiproccssors), fiecare cu propriul cache L cu lățime de bandă mare Fiecare multiprocesor de streaming conține de nuclee C UDA; Astfel, GPU-ul Fermi conține în total nuclee CIJDA Nucleul CUDA (Compute Unified Device Architecture) este simplu! procesor cu suport pentru calcule întregi cu precizie unică și calcule în virgulă mobilă Un bloc SM cu de nuclee cu UDA este prezentat în fig Cele SM-uri partajează un cache L combinat de MB conectat la o interfață DRAM multiport Interfața procesorului de control oferă un canal de comunicare între sistemul de control și GPU printr-o magistrală DRAM comună (de obicei printr-o interfață PCI-Express) Orez Arhitectura GPU Fermi Arhitectura Fermi este concepută pentru a executa în mod eficient codul de procesare grafică și video care implică de obicei calcule redundante semnificative răspândite pe mulți pixeli Din cauza acestei redundanțe, multiprocesoarele de streaming capabile să efectueze până la operațiuni simultan necesită ca toate operațiunile efectuate într-un ciclu să fie identice Acest stil de procesare se numește SIMD (Singlc Instruction Multiple Data); avantajul său major este că fiecare SM preia și decodifică doar o instrucțiune pe ciclu Prin coprocesarea comenzilor numai în toate nucleele SM, NVIDIA a reușit să încadreze nuclee într-o singură placă de siliciu Dacă programatorii pot utiliza pe deplin întreaga putere de calcul a lui Fermi (deși acest lucru Capitolul Arhitecturi de calculatoare paralele ♦dacă" arată întotdeauna vag), sistemul va depăși semnificativ arhitecturile scalare tradiționale, cum ar fi Coge I sau OMAP Cerințele specifice ale SIMD în SM impun restricții asupra codului care poate fi executat de programatori în aceste blocuri Pentru a executa toate cele operațiuni în același timp, fiecare nucleu CUDA trebuie să execute același cod Pentru a ușura munca programatorului, NVIDIA a dezvoltat limbajul de programare CUDA, care definește paralelismul programului folosind firele de execuție Fluxurile de programe sunt grupate în blocuri care sunt atribuite procesoarelor de flux Dacă fiecare fir de execuție dintr-un bloc execută aceeași secvență de instrucțiuni (adică aceleași decizii sunt luate în toate ramurile), pot fi efectuate până la operații simultan (presupunând că până la fire sunt gata de executat) Atunci când firele de execuție ale diferitelor SM-uri iau decizii diferite, apare un efect de degradare a performanței, din cauza căruia firele de execuție de program cu căi diferite sunt executate secvențial Acest efect reduce gradul de paralelism și încetinește GPU-ul Din fericire, în domeniul procesării grafice, există o gamă largă de operațiuni care ajută la evitarea efectului de încetinire și la obținerea unor performanțe bune Multe tipuri de cod beneficiază de execuție în arhitecturile SIMD: imagistică medicală, prognoză financiară, analiză grafică etc Odată cu extinderea gamei de aplicații potențiale ale GPU-urilor, noul nume GPGPU (General-Purpose Graphics Processing Units) le-a lipit Chiar și cu nuclee CUDA, GPU-ul Fermi va fi paralizat fără o lățime de bandă semnificativă a memoriei Pentru a face acest lucru, GPU-ul Fermi implementează ierarhia modernă de memorie prezentată în Fig Fiecare SM folosește atât memoria partajată, cât și propriul cache de date de nivel Memoria partajată este adresată direct de nucleele CUDA și permite partajarea rapidă a datelor între firele din același SM Cache-ul de nivel accelerează gestionarea datelor în DRAM În funcție de gama largă de utilizare a datelor de program, aceste SM-uri pot fi echipate fie cu memorie partajată de K cu cache de nivel de K, fie cu memorie partajată de K cu cache de nivel de K Toate SM-urile folosesc un cache de nivel combinat pentru KB Cache-ul L oferă acces rapid la datele DRAM care nu se potrivesc în memoria cache L Cache-ul L permite, de asemenea, partajarea datelor zilnice între SM-uri, deși acest mod este mult mai lent decât SM-urile partajate În spatele memoriei cache L se află DRAM, care stochează restul datelor, informațiilor grafice și texturilor utilizate de programele care rulează pe GPU-ul Fermi Programele eficiente ar trebui să evite utilizarea DRAM ori de câte ori este posibil, deoarece un singur acces poate dura sute de cicluri Pentru un programator inventiv, GPU-ul Fermi poate fi una dintre cele mai puternice platforme de calcul Doar un singur GPU GTX bazat pe Fermi care rulează la MHz cu nuclee CUDA este capabil să ofere până la , teraflopi de performanță la coprocesoare ok consum de putere de W Statisticile devin și mai impresionante dacă ai în vedere că prețul mediu al GTX este sub USD Spre comparație: în anii , cel mai rapid computer Cry- din lume avea o performanță de , teraflopi la un preț de de milioane de dolari Totuși, a ocupat o cameră de dimensiuni medii și a avut nevoie de un sistem de răcire cu lichid pentru a devia kW de energie consumată GTX oferă performanță de de ori mai mare, costă de de ori mai puțin și consumă de de ori mai puțină energie De acord, e bine? Orez Ierarhia memoriei GPU Fermi Procesoare cripto Securitatea, și în special securitatea rețelei, este un alt domeniu (deja al treilea) în care coprocesoarele sunt utilizate pe scară largă Când se stabilește o conexiune între un client și un server, acestea necesită de obicei autentificare reciprocă Folosind o conexiune sigură (criptată) stabilită în acest fel, puteți transfera date în siguranță și nu vă gândiți la intrușii care trec prin linie Problema aici este că securitatea este asigurată prin intermediul criptografiei, iar această zonă necesită calcule foarte voluminoase În criptografie, două abordări principale ale protecției datelor sunt acum comune: criptarea cheii simetrice și criptarea cheii publice Primul se bazează pe o amestecare foarte minuțioasă a biților (de parcă aș pune mesajul i într-un fel de mixer electronic) A doua abordare se bazează pe multiplicarea și exponențiarea numerelor mari ( de biți), ceea ce necesită costuri de timp extrem de mari Multe companii au lansat coprocesoare criptografice, dar permit ca datele să fie criptate pentru transmisie sigură și apoi decriptate Adesea sunt carduri de expansiune care sunt introduse la conectorul PCI Datorită hardware-ului special, aceste procesoare pot efectua calculele criptografice necesare mult mai rapid decât unitatea centrală de procesare Din păcate, un studiu mai detaliat al procesoarelor criptografice ar necesita mult timp pentru criptografia în sine, ceea ce depășește scopul acestei cărți Informații suplimentare despre criptoprocesoare pot fi găsite în [Gaspar et al , ; Haghighizadeh et al , ; Shoufan și colab , ] Multiprocesoare Ne-am dat seama cum să introducem paralelismul într-un sistem uniprocesor prin adăugarea unui coprocesor la acesta Următorul pas este să combinați mai multe procesoare cu drepturi depline într-un singur sistem mare Astfel de sisteme cu procesoare multiple pot fi împărțite în multiprocesoare și multicalculatoare După ce am înțeles mai întâi sensul acestor termeni, vom studia multiprocesoarele, iar după ele - multicomputerele Multiprocesoare și multicalculatoare În orice sistem computerizat paralel, procesoarele care efectuează diferite părți ale unei singure sarcini trebuie cumva să interacționeze între ele pentru a face schimb de informații Cum ar trebui să aibă loc mai exact schimbul? Pentru aceasta, au fost propuse și implementate două strategii: multiprocesoare și multicalculatoare Diferența cheie dintre strategii este prezența sau absența memoriei partajate Această diferență afectează atât proiectarea, proiectarea și programarea unor astfel de sisteme, cât și costul și dimensiunea acestora Multiprocesoare Un computer paralel în care toate procesoarele au o memorie fizică comună se numește multiprocesor sau sistem de memorie partajată (Figura a) Toate procesele care lucrează împreună într-un multiprocesor pot avea un singur spațiu de adrese virtuale mapat la o memorie partajată Orice proces care utilizează comenzile de încărcare și stocare poate citi un cuvânt din memorie sau poate scrie un cuvânt în memorie Nimic altceva nu este necesar Două procese au capacitatea de a schimba cu ușurință informații - pentru aceasta, unul dintre ele pur și simplu scrie date în memoria partajată, iar celălalt le citește Datorită posibilității de interacțiune între două sau mai multe procese, multiprocesoarele sunt foarte populare Acest model este de înțeles programatorilor și permite rezolvarea unei game largi de probleme De exemplu, luați în considerare un program care analizează un bitmap și listează toate obiectele sale O copie a imaginii este stocată în memorie, așa cum se arată în Fig b Fiecare dintre cele procesoare rulează un proces, conceput pentru a analiza una dintre cele secțiuni Dacă un proces detectează că unul dintre obiectele sale traversează granița unei secțiuni, acel proces pur și simplu urmărește obiectul în secțiunea următoare, citind cuvintele din acea secțiune În exemplul nostru, unele obiecte sunt procesate prin mai multe procese, așa că va fi necesară o anumită coordonare la sfârșit pentru a determina numărul de case, copaci și avioane a b Orez Multiprocesor cu procesoare care partajează memorie (a); imagine împărțită în secțiuni, fiecare dintre ele analizată de un procesor separat (b) Deoarece toate procesoarele dintr-un multiprocesor folosesc același spațiu de adrese, rulează o singură copie a sistemului de operare În consecință, există o singură hartă a paginii de memorie și un tabel de proces Când un proces se blochează, procesorul său își salvează starea în tabelele sistemului de operare și apoi caută în acele tabele un alt proces pentru a rula Această organizație, care se bazează pe un singur sistem, distinge un multiprocesor de un multicomputer, în care fiecare computer are propria copie a sistemului de operare Multiprocesorul, ca toate computerele, trebuie să conțină dispozitive de intrare și ieșire (discuri, adaptoare de rețea etc ) În unele sisteme multiprocesor, doar anumite procesoare au acces la dispozitivele I/O și, prin urmare, au facilități speciale de I/O Pe alte sisteme multiprocesor, fiecare procesor poate accesa orice dispozitiv I/O Dacă toate procesoarele au acces egal la toate modulele de memorie și la toate dispozitivele I/O și este posibilă interschimbabilitatea completă între procesoare, un astfel de multiprocesor se numește simetric (Symmetric MultiProcessor, SMP) Multicalculatoare În a doua variantă a arhitecturii paralele, fiecare procesor are propria sa memorie disponibilă doar acestui procesor O astfel de schemă se numește multicomputer sau sistem de memorie distribuită (Fig , a) Diferența cheie dintre un multicomputer și un multiprocesor este că fiecare procesor dintr-un multicomputer are propria sa memorie locală, la care acest procesor o poate accesa executând Comenzi LOAD și STORE, dar niciun alt procesor nu poate accesa memoria locală a procesorului folosind aceste instrucțiuni Astfel, multiprocesoarele au un spațiu de adrese fizice partajat de toate procesoarele, în timp ce multicalculatoarele au spații de adrese fizice separate pentru fiecare procesor Deoarece procesoarele dintr-un multicomputer nu pot comunica între ele prin simple accese la memoria partajată, procesoarele fac schimb de M-R- -R-M - R - - R - a b Orez Multicomputer cu procesoare, fiecare cu memorie(i) proprie; bitmap al imaginii din fig împărțit între module de memorie (b) comunicare prin rețeaua de comunicații care le conectează Exemple de multicomputere includ IBM BlueGene/L, Red Storm și clusterul Google În absența memoriei partajate implementată în hardware, se presupune o anumită structură software Într-un multicomputer, este imposibil să existe un singur spațiu de adrese virtuale pentru toate procesoarele care să permită citirea și scrierea informațiilor cu comenzi LOAD și STORE De exemplu, dacă procesorul din colțul din stânga sus al Fig b (să dăm acestui procesor numărul ) constată că o parte din obiectul său se încadrează într-o altă secțiune legată de următorul procesor (să fie procesorul ), pur și simplu poate continua să citească informații din memorie pentru a obține o imagine a cozii aeronave Totuși, dacă procesorul din Fig , b, el nu va putea citi pur și simplu informații din memoria procesorului În acest caz, algoritmul de obținere a datelor ar trebui să fie diferit În primul rând, procesorul trebuie să afle cumva care procesor conține datele de care are nevoie și să trimită un mesaj acelui procesor solicitând o copie a datelor Procesorul se blochează apoi până când este primit un răspuns Când procesorul primește un mesaj, acesta este analizat de software, după care datele solicitate sunt trimise înapoi Când procesorul primește un mesaj de răspuns, blocarea este eliberată de software și procesorul continuă să ruleze Într-un multicomputer, primitivele send și heeeee sunt adesea folosite pentru a comunica între procesoare Prin urmare, software-ul multicomputer are o structură mai complexă decât software-ul multiprocesor În acest caz, principala problemă este distribuirea corectă a datelor și plasarea lor rezonabilă Aceasta este o altă diferență între un multicomputer și un multiprocesor, unde plasarea datelor nu afectează corectitudinea soluționării problemei, deși poate afecta performanța Pe scurt, un multicomputer este mult mai greu de programat decât un multiprocesor Apare întrebarea: de ce să creați mai multe computere, dacă multiprocesoarele sunt mult mai ușor de programat? Răspunsul este simplu: construirea unui multicomputer mare este mai ușoară și mai ieftină decât construirea unui multiprocesor cu același număr de procesoare Implementarea unei memorie partajată partajată de câteva sute de procesoare este o provocare, dar proiectarea unui multicomputer cu sau mai multe procesoare este destul de ușoară Mai târziu, în acest capitol, ne vom uita la un multicomputer cu mai mult de de procesoare Astfel, ne confruntăm cu o dilemă: multiprocesoarele sunt greu de dezvoltat, dar ușor de programat, iar multicalculatoarele sunt ușor de construit, dar greu de programat Ca urmare, se încearcă în mod constant crearea de sisteme hibride Aceste încercări au condus la realizarea faptului că memoria partajată poate fi implementată în moduri diferite, iar fiecare variantă va avea avantaje și dezavantaje Aproape toate cercetările din domeniul arhitecturilor de computere paralele vizează crearea de forme hibride care să combină avantajele ambelor sisteme Aici este important să se realizeze scalabilitate, adică să se dezvolte un sistem care va continua să funcționeze corect atunci când se adaugă tot mai multe procesoare noi Una dintre abordări se bazează pe faptul că sistemele informatice moderne nu sunt monolitice, ci au o structură pe mai multe niveluri Acest lucru face posibilă implementarea memoriei partajate pe oricare dintre mai multe niveluri, așa cum se arată în n; orez Pe fig , și vedem memoria partajată implementată de aparatul io, ca într-un multiprocesor "adevărat" În această dezvoltare, există una; o copie a sistemului de operare cu un set de tabele, în special un tabel! alocare de memorie Dacă un proces are nevoie de mai multă memorie, acesta întrerupe sistemul de operare, care apoi caută în tabel o pagină liberă și mapează pagina respectivă la spațiul de adrese al procesului apelant În ceea ce privește sistemul de operare, există o singură memorie, iar sistemul de operare ține evidența ce pagină aparține cărui proces Există multe modalități de implementare a memoriei partajate în hardware A doua abordare este utilizarea hardware-ului multicomputer și a unui sistem de operare care va simula memoria partajată, oferind un singur spațiu de adrese virtuale paginat Cu această abordare, se obține o memorie distribuită distribuită (Distributed Shared Meinor DSM), în care fiecare pagină este amplasată într-unul dintre modulele de memorie (vezi Fig , a), iar fiecare mașină conține propria sa memorie virtuală și propria pagină tabele [Li și Hudak, ] Dacă procesorul emite o instrucțiune LOAD sau STORE în timp ce accesează o pagină pe care nu o are, apare o excepție de sistem După aceea, sistemul de operare găsește pagina dorită și apelează procesorul corespunzător pentru a descărca pagina din memorie și a o trimite prin rețeaua internă de comunicații prin care procesoarele fac schimb de mesaje Când pagina ajunge în procesul de primire, este mapată în memorie și execuția comenzii întrerupte se reia În esență, sistemul de operare pur și simplu preia paginile lipsă nu de pe disc, ci din memorie În același timp, utilizatorul a creat; Dă impresia că aparatul are o singură memorie partajată Vom reveni la memoria partajată distribuită mai târziu în acest capitol A treia abordare este de a implementa memoria partajată în mod programatic într-un sistem de utilizator în timp real Cu această abordare, abstracția memoriei partajate Mașină Mașină Mașină Mașină Mașină Mașină Aplicație Aplicație Aplicație Aplicație Aplicație Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Sistem în timp real utilizator Opera- Opera- Opera- Opera- Opera- Opera- tional sistem sistem sistem sistem sistem sistem Aparatură- Aparatură- Aparatură- Aparatură- Aparatură- Aparatură- nee nee nee nee sigur - sigur - sigur - sigur - sigur - sigur - coborare coborare coborare coborare Memoria comună Memoria comună Memoria comună A V Orez Niveluri la care poate fi implementată memoria partajată: implementare hardware (a); sistemul de operare (b); implementarea software (c) creează limbajul de programare, iar această abstractizare este implementată de compilator (adică, modelul de memorie partajată poate depinde de limbajul de programare utilizat) De exemplu, modelul Linda se bazează pe abstractizarea unui spațiu comun de tupluri (înregistrări de date care conțin seturi de câmpuri) Procesele de pe orice mașină pot lua un tuplu din spațiul partajat sau îl pot trimite în spațiul partajat Deoarece accesul la acest spațiu este controlat complet de software (sistemul în timp real Linda), nu este necesar nici un suport hardware special sau un sistem de operare special Un alt exemplu de memorie partajată implementat de un sistem personalizat în timp real este Modelul obiectelor de date partajate în sistemul Orcs În modelul Ogsa, procesele nu împărtășesc tupluri, ca în Linda, ci obiecte de bază apelând metode pe ele Dacă o metodă modifică starea internă a unui obiect, sistemul în timp real trebuie să se asigure că toate copiile acelui obiect de pe toate mașinile sunt modificate în același timp Din nou, deoarece obiectele sunt un concept pur software, ele pot fi implementate folosind un sistem în timp real fără intervenția sistemului de operare sau a hardware-ului Vom reveni la modelele Linda și Ogs mai târziu în acest capitol Clasificarea sistemelor informatice paralele Se pot spune multe despre software-ul pentru sistemele de calcul paralele, dar acum trebuie să revenim la subiectul principal al acesteia Capitole - arhitectura unor astfel de sisteme În ultimii ani, au fost propuse și construite multe tipuri de sisteme de calcul paralele, așa că aș dori să le clasific cumva Mulți cercetători au încercat să facă acest lucru cu rezultate diferite [Flynn, ; Treleaven, ], dar, din păcate, încă nu există o clasificare bună Clasificarea lui Flynn este folosită cel mai des, dar chiar și ea este în cel mai bun caz foarte aproximativă (Tabelul ) Tabelul Clasificarea lui Flynn a sistemelor computerizate paralele Fluxuri de comandă Fluxuri de date Exemple de categorii SISD Mașină clasică von Neumann lot SIMD Vector supercalculator, procesor matrice Multe MISD Nu există Multe Multe MIMD Multiprocesor, multicomputer Clasificarea lui Flynn se bazează pe conceptele de fluxuri de comandă și fluxuri de date Fluxul de instrucțiuni corespunde contorului de instrucțiuni Un sistem cu n procesoare are n contoare de programe și, prin urmare, n fluxuri de instrucțiuni Fluxul de date este format dintr-un set de operanzi De exemplu, într-un sistem de prognoză meteo, fiecare dintre mai mulți senzori poate furniza un flux de valori ale temperaturii măsurate la intervale regulate Fluxurile de comandă și de date sunt oarecum independente, deci există combinații de astfel de fluxuri (vezi Tabelul ) SISD (Single Instruction stream Single Data stream - un flux de instrucțiuni cu un flux de date) este arhitectura clasică a computerelor seriale von Neumann Un computer von Neumann are un flux de instrucțiuni și un flux de date și poate efectua o singură acțiune la un moment dat O mașină SIMD (Single Instruction-stream Multiple Data-stream) are o unitate de control care emite o instrucțiune la un moment dat, dar există mai multe ALU-uri care pot procesa mai multe seturi de date în același timp Prototipul mașinilor SIMD este procesorul ILLIAC IV (vezi Figura ) Deși aparatele SIMD nu sunt utilizate pe scară largă, unele computere convenționale folosesc instrucțiuni SIMD pentru a procesa date multimedia Instrucțiunile SSE din procesoarele Pentium sunt clasificate ca instrucțiuni SIMD În orice caz, există un domeniu în care ideile culese din "lumea SIMD" ies în prim-plan, și anume procesoarele de flux Procesoarele de flux sunt proiectate special pentru procesarea multimedia și pot juca un rol important în viitor [Kapasi et al , ] MISD (Multiple Instruction-stream Single Data-stream - mai multe fluxuri de instrucțiuni cu un singur flux de date) este o categorie destul de ciudată Aici, mai multe comenzi operează pe același set de date Este dificil de spus dacă există astfel de mașini, deși unii cataloghează mașinile cu transportoare drept MISD Ultima categorie este MIMD (Multiple Instruction-stream Multiple Data-stream - fluxuri de instrucțiuni multiple cu fluxuri de date multiple) Aici, mai multe procesoare independente funcționează ca parte a unui sistem mai mare Majoritatea procesoarelor paralele se încadrează în această categorie Atât multiprocesoarele, cât și multicalculatoarele sunt mașini MIMD Am extins clasificarea lui Flynn (Figura ) Categoria mașinilor SIMD este împărțită în două subgrupe Primul subgrup include numeroase supercalculatoare și alte mașini care funcționează pe vectori, efectuând aceeași operație pe fiecare element al vectorului Al doilea subgrup include mașini de tip ILLIAC IV, în care unitatea principală de control trimite comenzi către mai multe ALU independente Memoria comună Schimb de mesaje Orez Clasificarea calculatoarelor paralele În clasificarea noastră, categoria MIMD s-a împărțit în multiprocesoare (mașini cu memorie partajată) și multicalculatoare (mașini de mesagerie) Există trei tipuri de multiprocesoare Ele diferă unele de altele prin mecanismul de acces la memoria partajată și se numesc UMA (Uniform Memory Access - acces uniform la memorie), NUMA (NonUniform Memory Access - ^ acces omogen la memorie) și COMA (Cache Only Memory Access - acces la memoria cache) ) ) Această subcategorizare are sens, deoarece memoria este de obicei împărțită în mai multe module în multiprocesoare mari În mașinile UMA, fiecare procesor are același timp de acces la orice modul de memorie Cu alte cuvinte, fiecare cuvânt este citit din memorie cu aceeași viteză ca orice alt cuvânt Dacă acest lucru nu este posibil din punct de vedere tehnic, cele mai rapide accesări sunt încetinite pentru a se potrivi cu cele mai lente, astfel încât programatorul nu va observa nicio diferență Iată ce înseamnă "omogen" > stupa Această uniformitate face performanța previzibilă, iar acest factor este foarte important pentru crearea de programe eficiente O mașină NUMA, pe de altă parte, nu are proprietatea de uniformitate De obicei, fiecare procesor are unul dintre modulele de memorie care este situat mai jos decât celelalte, astfel încât accesul la acest modul de memorie are loc mult sus mai repede decât alții În acest caz, din punctul de vedere al producătorului, este foarte important unde ajung programul și datele Accesul la aparatele SOMA se dovedește, de asemenea, a fi eterogen, dar dintr-un motiv diferit Ne vom uita la fiecare dintre opțiuni mai detaliat mai târziu, când vom studia subcategoriile corespunzătoare A doua categorie principală de mașini MIMD este multicalculatoare, care, spre deosebire de multiprocesoare, nu au memorie partajată la nivel arhitectural Cu alte cuvinte, sistemul de operare al unui procesor dintr-un multicomputer nu poate accesa memoria altui procesor prin simpla lansare a unei comenzi LOAD Procesorul va trebui să trimită un mesaj și să aștepte un răspuns Este capacitatea sistemului de operare de a citi un cuvânt dintr-un modul de memorie de la distanță folosind comanda de încărcare care distinge multiprocesoarele de multicalculatoare După cum am observat deja, deși chiar și într-un multicomputer programele de utilizator pot accesa alte module de memorie folosind comenzile LOAD și STORE, această capacitate nu este suportată de hardware, sistemul de operare creează iluzia Diferența este minoră, dar foarte importantă Deoarece multicomputerele nu au acces direct la modulele de memorie la distanță, acestea sunt uneori clasificate ca NORMA (NO Remote Memory Access - fără acces la memorie la distanță) Multicalculatoarele pot fi, de asemenea, împărțite în două categorii suplimentare Categoria MPP (Massively Parallel Processor) include supercalculatoare scumpe care constau dintr-un număr mare de procesoare conectate printr-o rețea de comunicații internă de mare viteză Un exemplu comercial binecunoscut este supercalculatorul IBM SP/ A doua categorie de multicalculatoare include computerele personale convenționale sau stațiile de lucru (uneori montate în rafturi) care comunică conform unor tehnologii de comunicații comerciale Din punct de vedere logic, nu există nicio diferență fundamentală aici, dar un supercomputer puternic în valoare de milioane de dolari este cu siguranță folosit diferit decât o rețea de calculatoare asamblată de utilizatorii finali, care este de multe ori mai ieftină decât orice mașină MPP Aceste sisteme "de origine" sunt uneori numite rețele de stații de lucru (Network Of Workstations, NOW), clustere de stații de lucru (Cluster Of Workstattions, COW) sau pur și simplu clustere (cluster) Semantica memoriei Deși toate multiprocesoarele oferă procesoarelor o imagine a unui spațiu comun de adresă unică, adesea există multe module de memorie împreună cu acesta, fiecare dintre ele stochează o parte din memorie fizică Procesoarele și modulele de memorie sunt conectate printr-o rețea de comunicații complexă (consultați secțiunea "In-Processor Multithreading" din acest capitol de mai sus) Mai multe procesoare pot încerca să citească un cuvânt din memorie în același timp în care alți procesoare încearcă să-l scrie; este posibil ca mesajele să nu fie livrate în ordinea în care au fost trimise La aceste probleme se adaugă existența mai multor copii ale unor fragmente de memorie (de exemplu, în memoria cache), și ca urmare vom ajunge în haos dacă nu luăm contramăsuri serioase În această subsecțiune, vom afla ce este de fapt body este memorie partajată și modul în care modulele de memorie pot fi utilizate cu înțelepciune în astfel de circumstanțe Semantica memoriei poate fi gândită ca un contract între software-ul de memorie și hardware [Adve și Hill, ] Dacă software-ul este de acord să respecte anumite reguli, atunci memoria este de acord să producă anumite rezultate Principala problemă aici sunt regulile în sine, care se numesc modele de consistență Multe astfel de reguli au fost propuse și dezvoltate [Sorin et al , ] Pentru a vă face o idee despre problemă, să presupunem că procesorul scrie valoarea într-un cuvânt de memorie, iar puțin mai târziu procesorul scrie valoarea în același cuvânt Procesorul citește acest cuvânt și primește valoarea Ar trebui atunci proprietarul computerului să contacteze biroul de reparații? Depinde de ceea ce este promis în contract Solvabilitate strictă Cel mai simplu model este modelul de consistență strictă Într-un astfel de model, orice citire de la adresa x returnează întotdeauna valoarea celei mai recente intrări din x Programatorilor le place foarte mult acest model, dar poate fi pus în practică doar în felul următor: ar trebui să existe un singur modul de memorie care să servească pur și simplu toate cererile pe măsură ce intră (primul intrat, primul ieșit), stocarea în cache și duplicarea datelor nu sunt permis Din păcate, această abordare ar încetini semnificativ memoria, așa că cu greu poate fi considerată o propunere serioasă Consistență secvențială În continuare, luăm în considerare modelul de consistență secvențială [Lamport, ] Conform acestui model, atunci când există multiple cereri de citire și scriere, ordinea de procesare a cererii este determinată de hardware, dar toți procesoarele percep aceeași ordine Luați în considerare un exemplu Să presupunem că procesorul scrie valoarea în cuvântul x, iar după ns procesorul scrie acolo valoarea Acum să presupunem că la ns după începerea celei de-a doua operațiuni de scriere (procesul de scriere nu s-a încheiat încă), alte două procesoare, și , citiți cuvântul x de două ori (Fig ) CPU Scrieți valoarea Intrarea a doua Valori de citire de " Orez Două procesoare scriu, iar celelalte două procesoare citesc același cuvânt din memoria partajată Opțiunile posibile pentru secvența a șase evenimente sunt prezentate în tabel multiprocesoare Tabelul Opțiuni posibile pentru succesiunea evenimentelor conform Fig Opțiunea Opțiunea Opțiunea Scrieți valoarea Scrieți valoarea Scrieți valoarea Scrieți valoarea Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesor Scrieți valoarea Scrieți valoarea Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul Citiți valoarea de către procesorul În primul caz, ambele procesoare primesc valoarea în fiecare dintre cele două operații de citire În a doua opțiune, procesorul primește valorile și , iar procesorul primește de ambele ori În a treia opțiune, procesorul primește de două ori , iar procesorul primește valorile și Toate aceste opțiuni sunt valabile, precum și altele, care nu sunt afișate aici Nu există un sens "un singur drept" Memoria construită după modelul de consistență secvențială nu ar permite niciodată procesorului să obțină valorile și dacă procesorul ar primi valorile și Dacă acest lucru s-ar întâmpla, din punctul de vedere al procesorului , aceasta ar însemna că procesorul a scris valoarea finalizată înainte ca procesorul să scrie valoarea Acest lucru este complet posibil Dar din punctul de vedere al procesorului , aceasta înseamnă și că scrierea procesorului de s-a încheiat înainte de scrierea procesorului de Prin el însuși, acest rezultat este posibil, dar contrazice primul rezultat Consistența secvențială garantează o singură secvență globală (percepută de toate procesoarele) de operații de scriere Daca din punctul de vedere al procesorului se scrie prima valoarea , procesorul ar trebui sa "vada" la fel Deși regulile de consistență secvențială nu arată la fel de "greu" ca cele stricte, acest model este și el foarte util Chiar dacă mai multe evenimente au loc în același timp, se consideră că ele apar de fapt într-o anumită ordine (care poate fi aleasă în mod arbitrar), iar toți procesatorii percep această ordine Deși această stare de fapt pare evidentă, în cele ce urmează vom avea în vedere câteva modele de consistență care nu garantează o astfel de comandă Viabilitatea procesorului Consistența procesorului nu este un model foarte strict, dar este mai ușor de implementat pe multiprocesoare mari [Goodman, ] Are două proprietăți Toate procesoarele văd operațiile de scriere ale oricărui procesor în ordinea în care sunt efectuate aceste operațiuni Toate procesoarele văd toate scrierile pe orice cuvânt de memorie în aceeași ordine ww** !/!"■" despre arhitecturi paralele de calculatoare Ambele puncte sunt foarte importante Punctul nervos spune că dacă procesorul începe să scrie valorile IA, B și C într-un loc din memorie, în această ordine, atunci toți ceilalți procesoare vor vedea aceste înregistrări în aceeași ordine Cu alte cuvinte, nu se va întâmpla niciodată ca vreun procesor să vadă mai întâi valoarea B și apoi valoarea IA Al doilea punct este să vă asigurați că fiecare cuvânt din memorie are o semnificație definită și neechivocă după ce procesorul a făcut mai multe scrieri pe acel cuvânt și apoi s-a oprit Toată lumea ar trebui să vadă aceeași ultima valoare Chiar și cu astfel de limitări, dezvoltatorul are o mulțime de opțiuni Să vedem ce se întâmplă dacă procesorul începe trei scrieri ale A, B și C în același timp cu cele trei scrieri ale procesorului Alte procesoare care sunt ocupate să citească cuvinte din memorie vor vedea o secvență de șase scrieri, cum ar fi IA, B , A, B, C, C sau A, IA, B, C, B, C etc Cu consistența procesorului, nu este garantat că fiecare procesor va vedea aceeași ordine (spre deosebire de consistența secvențială) Este posibil ca unii procesoare să perceapă ordinea IA, B, A, B, IC, C, alții - A, IA, B, C, B, C și încă alții - o altă opțiune Singurul lucru care este absolut garantat este că niciun procesor nu va vedea secvența în care operația B este efectuată mai întâi și apoi IA Ordinea în care sunt executate accesările la același procesor rămâne aceeași pentru toți observatorii Trebuie remarcat faptul că unii autori definesc în mod diferit consistența procesorului și nu necesită ca a doua condiție să fie îndeplinită Solvabilitate slabă În modelul de consistență slabă, nu este garantat că operațiunile de scriere efectuate de un procesor vor fi acceptate de alții în aceeași ordine [Dubois et al , ] Un procesor poate vedea mai întâi operațiunea IA, apoi B, celălalt - mai întâi B, apoi IA Pentru a aduce ordine în acest haos, trebuie să existe variabile de sincronizare a memoriei sau o operație de sincronizare a memoriei suportată Sincronizare Prgt toate operațiunile de scriere în așteptare sunt finalizate și nicio operațiune nouă nu poate începe până când toate scrierile anterioare nu au fost finalizate și sincronizarea în sine sa încheiat Sincronizarea aduce memoria într-o stare stabilă în care nu există operațiuni în așteptare Operațiile de sincronizare în sine sunt consistente secvenţial, adică dacă sunt inițiate de mai mulți procesoare, se alege o anumită ordine pentru a le executa, iar toți procesoarele percep aceeași ordine Cu o consistență slabă, timpul este împărțit în perioade strict consecutive separate prin operații de sincronizare (Fig ) Nu este garantată o comandă specială pentru operațiunile de scriere IA și B, iar procesoarele diferite le pot percepe diferit, adică din punctul de vedere al unui procesor, operația IA poate fi efectuată mai întâi, apoi B și din punctul de vedere al vedere a altuia, mai întâi B și apoi IA Această situație este acceptabilă Cu toate acestea, pentru toate procesoarele, operațiunea B a fost finalizată înainte de C, deoarece înregistrările C, B, A, B au putut începe numai după ce înregistrările IA, B și A au fost finalizate în timpul primei operațiuni de sincronizare Astfel, cu ajutorul operațiunilor de sincronizare este posibil să se introducă în mod programatic o anumită ordine în secvența evenimentelor, deși acest lucru durează ceva timp, deoarece necesită curățarea conductei de memorie Efectuarea prea des a unor astfel de operațiuni va crea probleme Înregistrare Procesorul A D E Procesorul B A B D Procesorul C PENTRU ST AP Momentul de sincronizare Ora -► Orez Operațiile de sincronizare sunt efectuate periodic pe o memorie slab consistentă Solvabilitate liberă Consistența slabă nu este un model foarte eficient, deoarece necesită finalizarea tuturor operațiunilor de memorie și întârzie noile operațiuni până la finalizarea celor anterioare Modelul de consecvență liberă merge mult mai bine deoarece folosește ceva similar cu secțiunile critice* ale programului [Gharachorloo et al , ] Ideea este următoarea Dacă un proces iese în afara regiunii critice, aceasta nu înseamnă că toate scrierile ar trebui să se termine imediat Este necesar doar ca toate scrierile să fie finalizate înainte ca orice proces să intre din nou în această regiune critică În acest model, operația de sincronizare este separată în două operații diferite Pentru a citi sau a scrie într-o variabilă partajată, procesorul (adică, software-ul său) trebuie mai întâi să efectueze o operație de achiziție asupra variabilei de sincronizare, ceea ce îi permite să obțină acces exclusiv la datele partajate Procesorul poate apoi să facă orice dorește să facă cu datele (citește sau scrie), iar când este gata, trebuie să emită o operație de eliberare a variabilei de sincronizare pentru a indica faptul că s-a terminat Operația de eliberare nu necesită finalizarea scrierilor în așteptare, dar nu se poate finaliza singură până când toate scrierile începute anterior nu se vor finaliza Mai mult, operațiunile noi de memorie pot începe imediat Când începe următoarea operațiune de achiziție, se face o verificare pentru a vedea dacă toate operațiunile de eliberare anterioare s-au încheiat Dacă nu, atunci operația de achiziție este întârziată până când este finalizată (și toate operațiunile de scriere trebuie finalizate înainte ca toate operațiunile de eliberare să se fi încheiat) Astfel, dacă următoarea achiziție are loc suficient de mult după ultima lansare, nu trebuie să aștepte și poate intra în regiunea critică fără întârziere Dacă operația de achiziție este executată la scurt timp după operația de eliberare, op (și toate comenzile care trebuie executate după) așteaptă toate il "oa o paralel operațiuni de eliberare Acest lucru asigură că toate variabilele din regiunea critică sunt actualizate Acest model este ceva mai complex decât modelul de consecvență slabă, dar are un avantaj semnificativ: nu trebuie să întârzie execuția comenzilor la fel de des ca în modelul de consecvență slabă Problema viabilității memoriei nu poate fi considerată definitiv rezolvată Cercetătorii încă mai propun noi modele [Naeem et al , ; Sorin și colab , ; Tu et al , ] Multiprocesoare UMA în arhitecturi multiprocesoare simetrice Cele mai simple multiprocesoare au o singură magistrală (Fig , a) Două sau mai multe procesoare și unul sau mai multe module de memorie folosesc această magistrală pentru a comunica Dacă procesorul trebuie să citească un cuvânt din memorie, mai întâi verifică dacă magistrala este liberă Dacă magistrala este liberă, procesorul plasează pe magistrală adresa cuvântului dorit, afirmă câteva semnale de control și așteaptă ca memoria să plaseze cuvântul solicitat pe magistrală Memoria comună Obosi a b Memorie proprie V Orez Trei variante de multiprocesor pe o singură magistrală: fără cache (a); cu memorie cache (b); cu memorie cache și module separate de memorie locală (c) Dacă magistrala este ocupată, procesorul așteaptă pur și simplu ca acesta să devină liber Există o problemă cu această schemă Cu două sau trei procesoare, accesul la magistrală nu este greu de reglat, dificultăți apar atunci când există procesoare sau Performanța sistemului în acest caz este complet determinată de lățimea de bandă a magistralei și multe procesoare trebuie să rămână inactiv de cele mai multe ori Pentru a rezolva problema, trebuie să adăugați memorie cache la fiecare procesor, așa cum se arată în Fig b Memoria cache poate fi amplasată în interiorul cipului procesorului, lângă cipul procesorului, pe placa procesorului /Orice combinație a acestor opțiuni este permisă Deoarece din memoria cache pot fi citite multe cuvinte în acest caz, traficul pe autobuz va scădea și sistemul va putea deservi mai multe procesoare Astfel, memorarea în cache are un efect semnificativ în acest caz Cu toate acestea, după cum vom vedea în curând, reconcilierea conținutului cache-urilor este departe de a fi o sarcină banală În schema următoare, fiecare procesor are nu numai un cache, ci și propria sa memorie locală, pe care o accesează printr-o magistrală locală dedicată (Fig , c) Pentru a face o utilizare optimă a acestei configurații, compilatorul ar trebui să plaseze următorul cod în modulele locale 